Google Tung AI Mới: "Đọc" Hiểu Cùng Lúc Cả Video, Âm Thanh Và Văn Bản!

2026-03-11 22:43:56

Hãy tưởng tượng một hệ thống AI chăm sóc khách hàng có thể xử lý cùng lúc ghi âm, hình ảnh sản phẩm lỗi và hóa đơn PDF. Trước đây cần nhiều mô hình AI khác nhau, nhưng Gemini Embedding 2 của Google đã thay đổi cuộc chơi khi cho phép xử lý văn bản, hình ảnh, video, âm thanh và tài liệu trong cùng một không gian vector.

Google Tung AI Mới:

Đây là bước tiến lớn so với các mô hình chỉ đọc văn bản, giúp nhà phát triển xây dựng hệ thống RAG chính xác hơn và tối ưu chi phí lưu trữ nhờ công nghệ nén Matryoshka.

Kỷ Nguyên Của "Đa Phương Thức Gốc" 

Trước đây, để AI hiểu một kho dữ liệu đa dạng, kỹ sư phải chắp vá: Dùng mô hình CLIP cho hình ảnh, BERT cho văn bản. Sự thiếu đồng bộ này gây ra độ trễ lớn và sai lệch ngữ nghĩa. Gemini Embedding 2 giải quyết triệt để điều đó bằng cách hỗ trợ đầu vào xen kẽ (interleaved inputs).

Thông số giới hạn kỹ thuật trong một lần gọi API của Gemini 2 thực sự ấn tượng:

  • Văn bản: Lên tới 8.192 token.
  • Hình ảnh: Tối đa 6 ảnh (PNG, JPEG, WebP, HEIC).
  • Video: Dài tối đa 120 giây (MP4, MOV).
  • Âm thanh: Tối đa 80 giây âm thanh gốc (MP3, WAV) mà không cần bóc băng (transcription).
  • Tài liệu: Tối đa 6 trang PDF.

Ứng dụng thực tế: Thay vì tìm kiếm bằng từ khóa nhàm chán, một hệ thống thương mại điện tử như Shopee giờ đây có thể cho khách hàng tải lên đoạn video quay đường phố 10 giây kèm lời thoại ghi âm: "Tìm cho tôi chiếc áo khoác giống người phụ nữ trong video". Gemini 2 sẽ lập tức ánh xạ toàn bộ dữ liệu trên thành một vector duy nhất để đối chiếu với kho hàng khổng lồ và trả kết quả trong tích tắc.

Giải Bài Toán Chi Phí Server Với Công Nghệ Matryoshka (MRL) 

Giải Bài Toán Chi Phí Server Với Công Nghệ Matryoshka

Lưu trữ cơ sở dữ liệu vector tốn rất nhiều tiền, đặc biệt với các doanh nghiệp SME tại Việt Nam. Nếu bạn chủ động cắt giảm số chiều của vector để tiết kiệm dung lượng, AI thường bị "giảm IQ" và trả về kết quả sai.

Tuy nhiên, Gemini Embedding 2 áp dụng học biểu diễn Matryoshka. Mô hình tự động đẩy những thông tin ngữ nghĩa cốt lõi nhất lên các chiều (dimension) đầu tiên. Từ mức độ phân giải mặc định 3.072 chiều (dành cho dữ liệu y tế, pháp lý phức tạp của bệnh viện hay hãng luật lớn), lập trình viên có thể gọt xuống 1.536 chiều, hoặc 768 chiều để tối ưu tốc độ, giảm bộ nhớ mà tỷ lệ sai số cực thấp. Cách làm này tạo ra chiến lược "lọc ngắn": Dùng vector 768 chiều quét nhanh hàng triệu tài liệu, rồi dùng bản 3.072 chiều để xếp hạng lại độ chính xác.

Đánh Bại "Mất Trí Nhớ Cục Bộ" Trong Các Hệ Thống RAG

Dựa trên thang đo tiêu chuẩn MTEB, Gemini 2 vượt trội hoàn toàn về độ chính xác truy xuất và khả năng thích ứng miền (domain shift). Với sức chứa lên tới 8.192 token, nó dễ dàng xử lý những khối văn bản khổng lồ.

Ví dụ: Khi một AI phân tích tài chính của công ty chứng khoán SSI quét một báo cáo 30 trang từ Vinamilk, các mô hình cũ thường phải băm nhỏ tài liệu, gây ra hiện tượng "phân mảnh ngữ cảnh" – AI quên mất đại từ "công ty này" đang ám chỉ doanh nghiệp nào. Gemini 2 giữ nguyên vẹn dải liên kết này. Ngoài ra, Google còn cung cấp sẵn tham số “RETRIEVAL_QUERY” để lập trình viên ra ám hiệu, tối ưu hóa thuật toán đằng sau không gian vector sao cho sắc bén nhất.

Gemini Embedding 2 không chỉ là bản nâng cấp công nghệ mà còn mở ra cách tiếp cận mới cho Customer Journey. Nhờ khả năng hiểu ảnh, giọng nói, video và văn bản, doanh nghiệp có thể thấu hiểu ngữ cảnh khách hàng thay vì chỉ dựa vào từ khóa tìm kiếm. Việc tích hợp sớm qua Vertex AI API sẽ giúp doanh nghiệp xây dựng hệ thống AI thông minh hơn, mở ra kỷ nguyên tìm kiếm và trải nghiệm đa phương thức.

Thông tin liên hệ

Học Viện Marketing Online

Khóa học truyền nghề AI/ Youtube/ TikTok và Marketing chất lượng cao cho Doanh nghiệp/ Cá nhân

Hotline/Zalo: 0878 779 111

Trụ sở 1: CT5- X2 KĐT Linh Đàm- Hoàng Mai- Hà Nội

Trụ sở 2: 67 Nam Dư- Hoàng Mai- Hà Nội

Trự sở 3: Số 85 Vương Thừa Vũ- Thanh Xuân- Hà Nội

Websitehttps://hocvienmarketingonline.com/

Youtubehttps://www.youtube.com/c/H%E1%BB%8DcVi%E1%BB%87nMarketingOnlineNo1

Fanpagehttps://www.facebook.com/HocVienMarketingOnline89?locale=vi_VN



Bình luận:

Liên hệ tư vấn

Chat ngay với chúng tôi tại đây!

Tác giả
Tác giả

Phố Tổng là Chủ Tịch tại Học Viện Marketing Online, là một chuyên gia tư vấn và đào tạo trong lĩnh vực Trí tuệ Nhân tạo (AI) và Marketing Online.

Với hơn 9 năm kinh nghiệm, Phố Tổng đã đóng vai trò quan trọng trong việc giúp các doanh nghiệp và cá nhân tận dụng sức mạnh của AI để nâng cao chiến lược Marketing số của mình. Sự hiểu biết sâu rộng của ông về các ứng dụng AI và xu hướng Marketing trực tuyến đã giúp ông trở thành một nhà lãnh đạo tiên phong trong ngành.