Trong làn sóng phát triển mạnh mẽ của AI trí tuệ nhân tạo, Meta cùng các nhà nghiên cứu từ Đại học Waterloo đã ra mắt Mocha AI- mô hình có khả năng tạo hoạt ảnh nhân vật toàn thân, đồng bộ giọng nói và cử động tự nhiên chỉ từ mô tả văn bản và lời nói.
Meta ra mắt mô hình Mocha AI tạo nhân vật siêu thực
- Mocha là một mô hình AI được phát triển bởi Meta AI. Mục đích chính của mô hình này là tạo hoạt ảnh cho nhân vật biết nói.
- Tên gọi đầy đủ là Movie-Grade Talking Character Synthesis (Tổng hợp hình nhân vật nói chuyện với chất lượng điện ảnh).
- Mocha là một mô hình Diffusion Transformer, kết hợp giữa mô hình khuếch tán và mô hình transformer.
- Mục tiêu phát triển của Mocha là đạt được chất lượng điện ảnh cho các nhân vật được tạo ra.
Tính năng nổi bật của Mocha
- Cách thức hoạt động thông minh: MoCha sử dụng giọng nói và văn bản làm dữ liệu đầu vào, từ đó tạo ra hình ảnh nhân vật biết nói, với khẩu hình, biểu cảm và chuyển động khớp tự nhiên với nội dung được nói ra.
- Sử dụng kiến trúc Diffusion Transformer (DiT): Mocha kết hợp giữa mô hình khuếch tán và mô hình transformer, được gọi là DiT, có khả năng tạo ra nhân vật với chất lượng điện ảnh.
- Khả năng tạo hoạt ảnh toàn thân (full-body animation) với giọng nói và cử động đồng bộ một cách tự nhiên: Mocha không chỉ tập trung vào hoạt ảnh khuôn mặt như các mô hình trước đây, mà còn tạo ra chuyển động toàn bộ cơ thể, bao gồm cả cử chỉ và tương tác giữa nhiều nhân vật.
- Mocha đạt độ chính xác cao trong đồng bộ khẩu hình (lip-sync): Nhờ cơ chế “audio-visual window attention”, giúp giữ nguyên độ phân giải âm thanh và tránh lệch pha hình – tiếng. Mỗi khung hình chỉ truy cập một phần âm thanh cụ thể, mô phỏng cách con người nói.
- Khả năng xử lý và tạo hoạt ảnh cho nhiều nhân vật trong một cảnh quay: Mocha cho phép xử lý và tạo hoạt ảnh cho nhiều nhân vật trong cùng một cảnh quay, với khả năng gọi lại nhân vật bằng nhãn định danh như "Nhân vật 1", "Nhân vật 2" mà không cần mô tả lại từ đầu, mỗi nhân vật có khẩu hình và biểu cảm riêng, tạo cảm giác như một cảnh phim thật sự.
- Khả năng kết hợp đa yếu tố trong biểu đạt: Mocha có thể kết hợp linh hoạt giữa:
Khẩu hình + Câu thoại + Biểu cảm khuôn mặt
Khẩu hình + Câu thoại + Hành động tay chân, cơ thể
Khẩu hình + Câu thoại trên nhiều nhân vật, đồng bộ trong cùng một khung cảnh.
Tiềm năng ứng dụng của Mocha AI trong tương lai
- Công cụ hỗ trợ làm phim: Mocha có tiềm năng trở thành một công cụ làm phim trong tương lai. Đạo diễn có thể sử dụng mô hình này để hiện thực hóa các kịch bản hay. Việc sử dụng hình ảnh của diễn viên nổi tiếng kết hợp với Mocha có thể tạo ra những bộ phim đáng mơ ước.
- Thúc đẩy tự động hóa trong sản xuất phim: Mocha đánh dấu sự khởi đầu của một kỷ nguyên làm phim tự động.
>>> Xem thêm: Tổng hợp kiến thức về AI mới nhất
Những hạn chế và điểm yếu hiện tại của Mocha
- Vấn đề về chất lượng hình ảnh: Chất lượng hình ảnh do Mocha tạo ra vẫn chưa thực sự thuyết phục.
- Các lỗi cụ thể được ghi nhận: Khẩu hình của nhân vật đôi khi bị cường điệu hóa quá mức, gây ra sự lố bịch; bố cục của các vật thể trong cảnh quay chưa thực tế, tạo cảm giác giả tạo.
- Nhận định ban đầu của nhóm nghiên cứu Meta: Yếu tố kể chuyện thông qua nhân vật vẫn cần được cải thiện thêm.
Mocha AI đánh dấu bước tiến lớn của Meta trong lĩnh vực tạo video bằng AI, với khả năng hoạt ảnh toàn thân, đồng bộ khẩu hình và xử lý đa nhân vật. Giữa bối cảnh cạnh tranh, Mocha đã mở ra một chương mới đầy hứa hẹn cho sáng tạo nội dung bằng AI.
Thông tin liên hệ
Học Viện Marketing Online
Khóa học truyền nghề AI/ Youtube/ TikTok và Marketing chất lượng cao cho Doanh nghiệp/ Cá nhân
Hotline/Zalo: 0878 779 111
Trụ sở 1: CT5- X2 KĐT Linh Đàm- Hoàng Mai- Hà Nội
Trụ sở 2: 67 Nam Dư- Hoàng Mai- Hà Nội
Trự sở 3: 676 Kim Giang- Hà Nội
Website: https://hocvienmarketingonline.com/
Youtube: https://www.youtube.com/c/H%E1%BB%8DcVi%E1%BB%87nMarketingOnlineNo1
Fanpage: https://www.facebook.com/HocVienMarketingOnline89?locale=vi_VN