NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Góc học tập

NHẬN DIỆN NGƯỜI DÙNG RỜI BỎ DỊCH VỤ SỚM TRONG TRÒ CHƠI DI ĐỘNG MIỄN PHÍ SỬ DỤNG HỆ THỐNG MÔ HÌNH HAI GIAI ĐOẠN

on .

NHẬN DIỆN NGƯỜI DÙNG RỜI BỎ DỊCH VỤ SỚM TRONG TRÒ CHƠI DI ĐỘNG MIỄN PHÍ SỬ DỤNG HỆ THỐNG MÔ HÌNH HAI GIAI ĐOẠN

220201015 - Hà Đăng Hoàng

Sự bùng nổ vượt bậc của lĩnh vực công nghiệp trò chơi di động, đặc biệt là các trò chơi áp dụng mô hình trò chơi miễn phí, đã tạo ra nhu cầu ngày càng cao trong việc tối ưu hóa tỷ lệ giữ chân người dùng. Tuy nhiên, tỷ lệ rời bỏ dịch vụ sớm, đặc biệt trong các thể loại trò chơi như “Siêu giải trí” và “Rảnh tay”, đang trở thành một thách thức lớn đối với các nhà phát triển khi lên tới hơn 60% ngay trong phiên đầu tiên. Để giải quyết vấn đề này, luận văn này đề xuất một hệ thống nhận diện rời bỏ sớm hai giai đoạn nhằm dự đoán liệu người dùng có tiếp tục sử dụng ứng dụng sau phiên đầu tiên hay không. Hệ thống sử dụng các tính năng tổng quát hóa được thu thập trong quá trình hướng dẫn sử dụng và phiên đầu tiên, cùng với việc kết hợp các mô hình học máy như eXtreme Gradient Boosting, Gradient Boosted Trees Classifier, và các mô hình mạng nơ-ron như Artificial Neural Networks và Feature Tokenizer -Transformer. Qua việc nghiên cứu và xây dựng các mô hình này, hệ thống đạt được kết quả Area Under ROC Curve cao nhất là 99% trên ba bộ dữ liệu thực tế với hơn 700,000 người dùng, cho thấy khả năng tốt trong việc nhận diện sớm người dùng có khả năng rời bỏ. Kết quả này nhấn mạnh vai trò quan trọng của việc lựa chọn mô hình và tập đặc trưng phù hợp, đồng thời đề xuất các phương pháp xử lý dữ liệu tối ưu như sử dụng mô hình Gradient Boosted Regression Trees để cải thiện độ chính xác và tránh thiên vị trong bối cảnh thiếu dữ liệu. Hệ thống đề xuất không chỉ đáp ứng tốt yêu cầu khái quát hóa trên nhiều thể loại trò chơi khác nhau mà còn cung cấp cơ sở vững chắc cho các chiến lược giữ chân người dùng hiệu quả trong giai đoạn đầu sử dụng với kết quả thực nghiệm bằng phương pháp kiểm thử phân tập trên ứng dụng thực tế.

Trân trọng.

3 công việc quan trọng trong 1 ngày, 1 tháng của mỗi người là gì?

on .

Câu hỏi này có thể được hiểu theo nhiều cách – tùy vào mục tiêu sống, vai trò xã hội, hoặc quan điểm triết lý. Tuy nhiên, dưới góc nhìn tổng quát và cân bằng (giữa công việc, đời sống cá nhân và phát triển bản thân), dưới đây là một gợi ý về 3 công việc quan trọng mỗi ngày và 3 công việc quan trọng mỗi tháng mà mỗi người nên thực hiện để sống hiệu quả, có định hướng và bền vững:


<div class=

NGHIÊN CỨU XÁC THỰC THÔNG TIN TỰ ĐỘNG DỰA TRÊN NGUỒN TRI THỨC WIKIPEDIA TIẾNG VIỆT

on .

NGHIÊN CỨU XÁC THỰC THÔNG TIN TỰ ĐỘNG DỰA TRÊN NGUỒN TRI THỨC WIKIPEDIA TIẾNG VIỆT

Lê Tuấn Hưng - Tô Trường Long

Trong bối cảnh thông tin sai lệch được lan truyền một cách nhanh chóng trong hệ sinh thái truyền thông như hiện nay, việc kiểm tra sự thật (Fact - Checking) đã trở thành một nhu cầu cấp thiết để bảo vệ tính chính xác và trung thực của thông tin. Mặc dù vấn đề này tồn tại hầu hết ở mọi quốc gia trên thế giới, nhưng đa phần các nghiên cứu và công nghệ hiện tại vẫn chỉ tập trung vào các ngôn ngữ có nhiều tài nguyên như tiếng Anh hay tiếng Trung, để lại khoảng trống lớn cho các ngôn ngữ ít tài nguyên như tiếng Việt. Vì lý do đó, nhu cầu cho việc khám phá các phương pháp và đặc biệt là các bộ dữ liệu mới nhằm hỗ trợ cho việc xây dựng các hệ thống xác thực thông tin trên tiếng Việt là vô cùng cần thiết. Nhằm đóng góp trong việc thu hẹp khoảng cách về tài nguyên so với các ngôn ngữ khác, nhóm xin giới thiệu khóa luận tốt nghiệp của nhóm với mục tiêu giới thiệu bộ dữ liệu ViWikiFC (Vietnamese Wikipedia Fact-Checking) - một bộ dữ liệu được gán nhãn thủ công dành riêng cho việc kiểm tra sự thật dựa trên nguồn thông tin là Wikipedia tiếng Việt. ViWikiFC bao gồm 20.916 câu tuyên bố được tạo ra thông qua quá trình chuyển đổi các câu bằng chứng được trích xuất từ các bài viết trên Wikipedia. Các tuyên bố này được gán nhãn cẩn thận và phân loại theo các nhãn: Hỗ trợ (Supported), Phản bác (Refuted) và Không đủ thông tin (Not Enough Information). Bộ dữ liệu này không chỉ đóng góp cho nguồn dữ liệu của bài toán kiểm tra thực tế tiếng Việt mà còn được phân tích kỹ lưỡng từ nhiều khía cạnh ngôn ngữ khác nhau nhằm thể hiện sự đa dạng ngôn ngữ trong dữ liệu. Bên cạnh giới thiệu bộ dữ liệu, nhóm đồng thời thực hiện những nghiên cứu, phân tích trong việc sử dụng các mô hình ngôn ngữ lớn (LLMs) vào quá trình xây dựng dữ liệu cho bài toán kiểm chứng sự thật trong tiếng Việt với mong muốn nhằm khắc phục những hạn chế hiện có của bộ dữ liệu ViWikiFC (bao gồm thời gian xây dựng, chi phí gán nhãn và bộ dữ liệu ViWikiFC chỉ tập chung vào xác thực thông tin trên một câu bằng chứng) cũng như đánh giá khả năng tạo sinh của các mô hình ngôn ngữ lớn trong việc tạo sinh dữ liệu cho bài toán kiêm chứng sự thật trong tiếng Việt nói chung và tạo sinh dữ liệu cho các bài toàn khác thuộc lĩnh vực khoa học máy tính nói chung. Trong quá trình đánh giá, phân tích ở cả bộ dữ liệu ViWikiFC và khả năng của LLMs, nhóm sử dụng các kỷ thuật phân tích về khía cạnh ngôn ngữ cũng như thông qua hiệu suất của các mô hình đơn ngôn ngữ và các mô hình đa ngôn ngữ nổi tiếng.

Trân trọng.