Cải thiện Trợ lý Google: 'Nhìn và Nói', nhiều cụm từ nhanh hơn, nhận dạng tông màu da được cải thiện và những phát triển trong tương lai

Biểu tượng thời gian đọc 4 phút đọc

Biểu tượng lịch Được đăng trên 16 Tháng Năm, 2022

Được xuất bản trên 16 Tháng Năm, 2022

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

Gần đây, chúng tôi nhận thấy rất nhiều cải tiến trong Trợ lý Google. Một trong những điều tốt nhất cần làm nổi bật là chính thức của công ty thông báo tính năng mới của ứng dụng phần mềm được gọi là “Nhìn và nói chuyện” trong bài phát biểu chính của Google I / O. Tuy nhiên, cũng có những chi tiết khác đáng được đề cập và đánh giá cao, đặc biệt nếu bạn phụ thuộc rất nhiều vào Trợ lý trong các hoạt động hàng ngày của mình. Chúng bao gồm cải tiến của Google Assitant về khả năng nhận dạng tông màu da và mở rộng thư viện cụm từ nhanh của nó.

Gần đây, tính năng Giao diện và trò chuyện mới do Google giới thiệu đã được tung ra rộng rãi cho tất cả Nest Hub Max người dùng ở Mỹ. Ý tưởng chính đằng sau nó rất đơn giản: làm cho tương tác của người dùng với thiết bị trở nên đơn giản hơn và trên hết, tự nhiên hơn. Điều này giúp đơn giản hóa việc gửi lệnh tới Google Assitant bằng cách xóa cụm từ gợi ý “Xin chào Google” mỗi khi một người cần kích hoạt Nest Hub Max. Tính năng này hoạt động thông qua sự phối hợp của các công nghệ khác nhau được Google tích hợp. Cụ thể, Look and Talk sử dụng tính năng Face Match và Voice Match của hệ thống, giúp hệ thống xác định thời điểm phản hồi.

Bằng cách sử dụng tính năng Nhìn và Nói, người dùng chỉ cần đứng cách Nest Hub Max không quá 5 feet, nhìn chằm chằm và ra lệnh Google Assistant. “Giả sử tôi cần sửa bồn rửa bát bị rò rỉ của mình”, Phó chủ tịch Trợ lý Google, Sissie Hsiao, cố gắng giải thích cách hoạt động của Look and Talk trong bài đăng trên blog. “Khi bước vào phòng, tôi có thể chỉ cần nhìn vào Nest Hub Max của mình và nói 'Hiển thị thợ sửa ống nước gần tôi' - mà không cần phải nói 'Này Google' trước."

Hsiao cũng cho biết thêm rằng video về các tương tác mà Trợ lý phân tích được "xử lý hoàn toàn trên thiết bị", đảm bảo rằng dữ liệu của bạn không bị chia sẻ với Google hoặc bất kỳ ứng dụng bên thứ ba nào khác. Hsiao cũng nhấn mạnh rằng tính năng mới tôn trọng quyền riêng tư, vì vậy bạn có thể chọn tham gia hoặc không tham gia bất cứ lúc nào. Ban đầu, nó đã bị vô hiệu hóa và bạn cần bật nó lên qua ứng dụng Google Home. Chỉ cần chuyển đến cài đặt thiết bị của Nest Hub Max, sau đó đến “Nhận dạng và chia sẻ”, sau đó chuyển đến menu “Đối sánh khuôn mặt” và bật cài đặt này.

Hsiao lưu ý: “Có rất nhiều điều đang diễn ra ở hậu trường để nhận ra liệu bạn có đang thực sự giao tiếp bằng mắt với thiết bị của mình hay không thay vì chỉ nhìn lướt qua”. “Trên thực tế, cần sáu mô hình học máy để xử lý hơn 100 tín hiệu từ cả máy ảnh và micrô - như khoảng cách gần, hướng đầu, hướng nhìn, chuyển động môi, nhận thức ngữ cảnh và phân loại ý định - tất cả đều trong thời gian thực.”

Mặt khác, do Look and Talk hoạt động thông qua Face Match, điều quan trọng cần lưu ý là Google đảm bảo làm cho nó hiệu quả với nhiều người dùng bằng cách đưa vào công nghệ Real Tone mà hãng đã ra mắt vào năm ngoái. Điều này cho phép máy ảnh Nest Hub Max hoạt động hiệu quả trên các tông màu da khác nhau. Ngoài ra, công ty hứa hẹn sẽ thúc đẩy mọi thứ tiến xa hơn bằng cách sử dụng “Thang màu da Monk” để giúp máy hiểu hình ảnh hiệu quả hơn.

Hơn nữa, với hy vọng giảm bớt nhu cầu nói cụm từ gợi ý “Xin chào Google” nhiều hơn, Google cũng đang đưa vào cụm từ nhanh trong Nest Hub Max. Điều này làm cho mọi thứ đơn giản hơn cho người dùng mà không cần phải nhìn chằm chằm vào camera của thiết bị hoặc đứng trước nó. Giống như Giao diện và Nói chuyện, Voice Match quản lý công việc của các cụm từ nhanh cũng có thể được tắt và bật.

Mặc dù những cải tiến được Google tiết lộ khiến Trợ lý hài lòng hơn lần này, nhưng Google cho biết họ vẫn có nhiều kế hoạch hơn cho phần mềm này trong tương lai. Nó bao gồm việc cung cấp cho nó các mô hình ngôn ngữ và lời nói tốt hơn để “hiểu các sắc thái của lời nói của con người”. Hiện tại, công ty đang phát triển một chip Tensor được thiết kế riêng để cho phép Trợ lý xử lý các tác vụ học máy trên thiết bị theo cách nhanh nhất có thể. Sau khi thành công, Google nói rằng công nghệ đầy hứa hẹn này sẽ giúp Trợ lý hiểu rõ hơn về giọng nói của con người ngay cả khi có sự hiện diện của các phần bổ sung không cần thiết (như “uhm” hoặc “ahh”) và tạm dừng khi ai đó đang nói.

Sharon Bennet

phóng viên

Sharron là phóng viên công nghệ tại mspoweruser.com. Cô ấy đưa tin về hầu hết các tin tức công nghệ từ các thương hiệu như Sony, Samsung, Google, v.v.

Bình luận