Meta ra mắt Mocha- Biến văn bản hoặc giọng nói thành nhân vật biết nói

Meta ra mắt Mocha- Biến văn bản hoặc giọng nói thành nhân vật biết nói

2025-04-03 23:13:41

Trong làn sóng phát triển mạnh mẽ của AI trí tuệ nhân tạo, Meta cùng các nhà nghiên cứu từ Đại học Waterloo đã ra mắt Mocha AI- mô hình có khả năng tạo hoạt ảnh nhân vật toàn thân, đồng bộ giọng nói và cử động tự nhiên chỉ từ mô tả văn bản và lời nói. 

Meta ra mắt Mocha- Biến văn bản hoặc giọng nói thành nhân vật biết nói

Meta ra mắt mô hình Mocha AI tạo nhân vật siêu thực

Meta ra mắt mô hình Mocha AI tạo nhân vật siêu thực

  • Mocha là một mô hình AI được phát triển bởi Meta AI. Mục đích chính của mô hình này là tạo hoạt ảnh cho nhân vật biết nói. 
  • Tên gọi đầy đủ là Movie-Grade Talking Character Synthesis (Tổng hợp hình nhân vật nói chuyện với chất lượng điện ảnh). 
  • Mocha là một mô hình Diffusion Transformer, kết hợp giữa mô hình khuếch tán và mô hình transformer. 
  • Mục tiêu phát triển của Mocha là đạt được chất lượng điện ảnh cho các nhân vật được tạo ra.

Tính năng nổi bật của Mocha 

  • Cách thức hoạt động thông minh: MoCha sử dụng giọng nói và văn bản làm dữ liệu đầu vào, từ đó tạo ra hình ảnh nhân vật biết nói, với khẩu hình, biểu cảm và chuyển động khớp tự nhiên với nội dung được nói ra.

Tính năng nổi bật của Mocha - Cách thức hoạt động thông minh

 

  • Sử dụng kiến trúc Diffusion Transformer (DiT): Mocha kết hợp giữa mô hình khuếch tán và mô hình transformer, được gọi là DiT, có khả năng tạo ra nhân vật với chất lượng điện ảnh.

Tính năng nổi bật của Mocha- Sử dụng kiến trúc DiT

  • Khả năng tạo hoạt ảnh toàn thân (full-body animation) với giọng nói và cử động đồng bộ một cách tự nhiên: Mocha không chỉ tập trung vào hoạt ảnh khuôn mặt như các mô hình trước đây, mà còn tạo ra chuyển động toàn bộ cơ thể, bao gồm cả cử chỉ và tương tác giữa nhiều nhân vật.

  • Mocha đạt độ chính xác cao trong đồng bộ khẩu hình (lip-sync): Nhờ cơ chế “audio-visual window attention”, giúp giữ nguyên độ phân giải âm thanh và tránh lệch pha hình – tiếng. Mỗi khung hình chỉ truy cập một phần âm thanh cụ thể, mô phỏng cách con người nói. 

  • Khả năng xử lý và tạo hoạt ảnh cho nhiều nhân vật trong một cảnh quay: Mocha cho phép xử lý và tạo hoạt ảnh cho nhiều nhân vật trong cùng một cảnh quay, với khả năng gọi lại nhân vật bằng nhãn định danh như "Nhân vật 1", "Nhân vật 2" mà không cần mô tả lại từ đầu, mỗi nhân vật có khẩu hình và biểu cảm riêng, tạo cảm giác như một cảnh phim thật sự.
  • Khả năng kết hợp đa yếu tố trong biểu đạt: Mocha có thể kết hợp linh hoạt giữa:

Khẩu hình + Câu thoại + Biểu cảm khuôn mặt

Khẩu hình + Câu thoại + Hành động tay chân, cơ thể

Khẩu hình + Câu thoại trên nhiều nhân vật, đồng bộ trong cùng một khung cảnh.

Tiềm năng ứng dụng của Mocha AI trong tương lai

Tiềm năng ứng dụng của Mocha AI trong tương lai

  • Công cụ hỗ trợ làm phim: Mocha có tiềm năng trở thành một công cụ làm phim trong tương lai. Đạo diễn có thể sử dụng mô hình này để hiện thực hóa các kịch bản hay. Việc sử dụng hình ảnh của diễn viên nổi tiếng kết hợp với Mocha có thể tạo ra những bộ phim đáng mơ ước. 
  • Thúc đẩy tự động hóa trong sản xuất phim: Mocha đánh dấu sự khởi đầu của một kỷ nguyên làm phim tự động.

>>> Xem thêm: Tổng hợp kiến thức về AI mới nhất

Những hạn chế và điểm yếu hiện tại của Mocha 

Những hạn chế và điểm yếu hiện tại của Mocha 

  • Vấn đề về chất lượng hình ảnh: Chất lượng hình ảnh do Mocha tạo ra vẫn chưa thực sự thuyết phục.
  • Các lỗi cụ thể được ghi nhận: Khẩu hình của nhân vật đôi khi bị cường điệu hóa quá mức, gây ra sự lố bịch; bố cục của các vật thể trong cảnh quay chưa thực tế, tạo cảm giác giả tạo. 
  • Nhận định ban đầu của nhóm nghiên cứu Meta: Yếu tố kể chuyện thông qua nhân vật vẫn cần được cải thiện thêm.

Mocha AI đánh dấu bước tiến lớn của Meta trong lĩnh vực tạo video bằng AI, với khả năng hoạt ảnh toàn thân, đồng bộ khẩu hình và xử lý đa nhân vật. Giữa bối cảnh cạnh tranh, Mocha đã mở ra một chương mới đầy hứa hẹn cho sáng tạo nội dung bằng AI.

Thông tin liên hệ

Học Viện Marketing Online

Khóa học truyền nghề AI/ Youtube/ TikTok và Marketing chất lượng cao cho Doanh nghiệp/ Cá nhân

Hotline/Zalo: 0878 779 111

Trụ sở 1: CT5- X2 KĐT Linh Đàm- Hoàng Mai- Hà Nội

Trụ sở 2: 67 Nam Dư- Hoàng Mai- Hà Nội

Trự sở 3: 676 Kim Giang- Hà Nội

Websitehttps://hocvienmarketingonline.com/

Youtubehttps://www.youtube.com/c/H%E1%BB%8DcVi%E1%BB%87nMarketingOnlineNo1

Fanpagehttps://www.facebook.com/HocVienMarketingOnline89?locale=vi_VN

Bình luận:

Liên hệ tư vấn

Đăng ký email để nhanh chóng nhận được những thông tin khuyến mãi mới nhất từ chúng tôi
Tác giả
Tác giả

Phố Tổng là Chủ Tịch tại Học Viện Marketing Online, là một chuyên gia tư vấn và đào tạo trong lĩnh vực Trí tuệ Nhân tạo (AI) và Marketing Online.

Với hơn 8 năm kinh nghiệm, Phố Tổng đã đóng vai trò quan trọng trong việc giúp các doanh nghiệp và cá nhân tận dụng sức mạnh của AI để nâng cao chiến lược Marketing số của mình. Sự hiểu biết sâu rộng của ông về các ứng dụng AI và xu hướng Marketing trực tuyến đã giúp ông trở thành một nhà lãnh đạo tiên phong trong ngành.