NVIDIA và Google hợp tác để tối ưu hóa Google Gemma mới trên GPU NVIDIA

2 phút đọc

Được đăng trên 22 Tháng hai, 2024

Được xuất bản trên 22 Tháng hai, 2024

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

Ghi chú chính

Microsoft từ bỏ NVIDIA và Google nắm lấy họ để tối ưu hóa mô hình AI mới của mình.
TensorRT-LLM của NVIDIA tăng tốc Gemma của Google trên nhiều nền tảng khác nhau, bao gồm cả PC cục bộ.
Các nhà phát triển có quyền truy cập vào các công cụ để tinh chỉnh và triển khai Gemma cho các nhu cầu cụ thể.

Trong khi Microsoft gần đây đã công bố quyết định chuyển từ GPU NVIDIA sang chip tùy chỉnh của mình thì Google lại thực hiện cách tiếp cận ngược lại, hợp tác với NVIDIA để tối ưu hóa mô hình ngôn ngữ nhẹ mới, Gemma, trên GPU NVIDIA.

Đọt non là một mô hình ngôn ngữ nhẹ được phát triển bởi Google. Không giống như các mô hình ngôn ngữ lớn (LLM) truyền thống đòi hỏi tài nguyên tính toán khổng lồ, Gemma tự hào có kích thước nhỏ hơn (2 tỷ và 7 tỷ phiên bản tham số) trong khi cung cấp các khả năng ấn tượng.

Sự hợp tác này nhằm mục đích cải thiện đáng kể khả năng tiếp cận và hiệu suất của Gemma, giúp nó nhanh hơn và có sẵn rộng rãi hơn trên nhiều nền tảng khác nhau.

Thư viện nguồn mở này tối ưu hóa suy luận LLM, cho phép hiệu suất nhanh hơn trên GPU NVIDIA trong trung tâm dữ liệu, môi trường đám mây và thậm chí cả máy tính cá nhân được trang bị GPU NVIDIA RTX. Sự hợp tác này nhắm tới hơn 100 triệu GPU NVIDIA RTX trên toàn cầu và các nền tảng đám mây có GPU H100 và H200 sắp ra mắt.

Bộ AI Enterprise của NVIDIA, bao gồm khung NeMo và TensorRT-LLM, trao quyền cho các nhà phát triển tinh chỉnh và triển khai Gemma cho các trường hợp sử dụng cụ thể.

Người dùng có thể tương tác trực tiếp với Gemma thông qua NVIDIA AI Playground và sắp tới là thông qua bản demo Chat with RTX, cho phép họ cá nhân hóa chatbot bằng dữ liệu của mình.

Với Microsoft tách mình ra khỏi NVIDIA, động thái của Google nhằm tối ưu hóa công nghệ của mình trên GPU NVIDIA cho thấy khả năng tăng cường mối quan hệ đối tác của họ. Điều này có thể dẫn đến những tiến bộ hơn nữa về mô hình hóa ngôn ngữ và AI, mang lại lợi ích cho cả nhà phát triển và người dùng.

Ngoài ra, việc tập trung vào xử lý cục bộ thông qua GPU RTX giúp người dùng có quyền kiểm soát tốt hơn đối với dữ liệu và quyền riêng tư của họ, có khả năng giải quyết các mối lo ngại liên quan đến dịch vụ LLM dựa trên đám mây.

Hơn tại đây.

Thông tin thêm về các chủ đề: Đọt non

Devesh Beri

Nhà báo công nghệ

Đây là những điều thúc đẩy tôi - tạo ra nội dung giàu thông tin và hữu ích, theo đuổi niềm đam mê đua xe thể thao và âm nhạc, tham gia các cuộc thám hiểm, duy trì lối sống lành mạnh và dành thời gian với chú mèo Taco đáng yêu của tôi.