Công nghệ EMO hoạt động như thế nào?
Theo nhà sản xuất Viện Điện toán Thông minh (IIC) của Alibaba cho biết, EMO có khả năng “tạo biểu cảm kèm âm thanh từ nhân vật trong ảnh”. Hiểu một cách khách, bạn chỉ cần đưa một hình ảnh một người, AI có thể biến hình ảnh đó kết hợp âm thanh giọng nói thành một video nói hoặc hạt với biểu cảm rất tự nhiên.
Điểm đặc biệt của trí tuệ nhân tạo AI này này không đơn giản chỉ đổi miệng hay một phần của khuôn mặt. EMO dễ dàng tạo nét mặt, tư thế, chuyển động lông mày hay nhíu mắt thậm chí lắc lư mặt theo giai điệu âm nhạc mà vẫn đồng bộ với chuyển động của môi.
Hơn vậy, công nghệ EMO hỗ trợ nhiều ngôn ngữ khác nhau như Anh, Trung, Việt,…. Phía Alibaba cho biết, họ đã huấn luyện AI với lượng lớn dữ liệu về hình ảnh, âm thanh, video nhằm tạo chuyển động biểu cảm khuôn mặt một cách chân thực nhất.
Đại diện nhóm chia sẻ: “Chúng tôi muốn giải quyết thách thức lớn hiện nay là tính chân thực và tính biểu cảm trong việc tạo video từ hình ảnh và âm thanh bằng cách tập trung vào mối liên hệ cũng như sắc thái giữa tín hiệu âm thanh và chuyển động trên khuôn mặt. Phương pháp được áp dụng là tổng hợp, bỏ qua liên kết mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt, chuyển tiếp khung hình liền mạch và bảo toàn tính nhất quán trong video, mang lại ảnh động có tính biểu cảm cao và sống động như thật”.
Có thể ứng dụng EMO của Alibaba trong hoạt động gì?
Tiềm năng lớn của EMO có thể được áp dụng cho các lĩnh vực như giải trí, giáo dục và giao tiếp. Mặc dù EMO của Alibaba được đánh giá cao, đặc biệt có tính giải trí rất phù hợp với giới trẻ. Tuy nhiên công cụ AI này cũng gây ra những lo ngại về mặt đạo đức nếu không được quản lý chặt chẽ về quyền sử dụng hình ảnh của người khác khi chưa có sự đồng ý. Nghiêm trọng hơn là bị lợi dụng để video giả mạo, gây ảnh hưởng đến danh tiếng của các cá nhân hoặc tổ chức.
Đây là một “con dao 2 lưỡi” có thể mang lại kết quả tích cực hoặc tiêu cực. Điều này phụ thuộc rất nhiều vào mục đích sử dụng của mỗi người!