Googleアシスタントの改善:「ルックアンドトーク」、より迅速なフレーズ、肌の色の認識の改善、および将来の開発

読書時間アイコン 4分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

最近、Googleアシスタントで大幅な改善が見られます。 ハイライトするのに最適なもののXNUMXつは、会社の公式です 発表 Google I/O基調講演での「ルックアンドトーク」と呼ばれるソフトウェアアプリケーションの新機能について説明します。 それでも、特に日常の活動でアシスタントに大きく依存している場合は、言及して評価する価値のある他の詳細もあります。 これには、肌のトーンの認識に関するGoogle Assitantの改善と、クイックフレーズライブラリの拡張が含まれます。

最近、Googleによって導入された新しいルックアンドトーク機能がすべての人に広く展開されているのが見られます ネストハブマックス 米国のユーザー。 その背後にある主なアイデアは単純です。デバイスとのユーザーの対話をより簡単にし、何よりも、より自然にすることです。 これにより、ユーザーがNest Hub Maxをアクティブ化する必要があるたびに、キューフレーズ「HeyGoogle」を削除することで、GoogleAssitantへのコマンドの配信が簡素化されます。 この機能は、Googleによって統合されたさまざまなテクノロジーの調整を通じて機能します。 具体的には、Look andTalkはシステムのFaceMatchおよびVoiceMatch機能を使用して、いつ応答するかを決定するのに役立ちます。

ルックアンドトーク機能を使用すると、ユーザーはNest Hub Maxから5フィート以内に立ち、凝視し、コマンドを実行するだけで済みます。 Googleのアシスタント。 「漏れのある台所の流し台を修理する必要があるとしましょう」と、GoogleアシスタントのSissie Hsiao副社長は、ブログ投稿でLookandTalkがどのように機能するかを説明しようとしています。 「部屋に入ると、Nest Hub Maxを見て、「近くの配管工を見せて」と言うことができます。最初に「ねぇGoogle」と言わなくてもかまいません。」

Hsiaoはまた、アシスタントによって分析されているインタラクションのビデオは「完全にデバイス上で処理」され、データがGoogleやその他のサードパーティアプリと共有されていないことを保証すると付け加えています。 Hsiaoはまた、新機能はプライバシーを尊重することを強調しているため、いつでもオプトインまたはオプトアウトすることができます。 最初は非アクティブ化されており、GoogleHomeアプリからオンにする必要があります。 Nest Hub Maxのデバイス設定、[認識と共有]、[顔の一致]メニューの順に移動し、設定をオンに切り替えます。

「デバイスを一瞥するだけでなく、実際にデバイスとアイコンタクトを取っているかどうかを認識するために、舞台裏で多くのことが行われています」とシャオ氏は述べています。 「実際、カメラとマイクの両方からの100を超える信号(近接、頭の向き、視線の方向、唇の動き、コンテキストアウェアネス、意図の分類など)をすべてリアルタイムで処理するには、XNUMXつの機械学習モデルが必要です。」

一方、Look andTalkはFaceMatchを介して機能することを考えると、Googleが昨年リリースしたReal Toneテクノロジーを含めることで、多様なユーザーに効果的に機能するようにしたことに注意することが重要です。 これにより、NestHubMaxカメラがさまざまな肌の色調で効率的に機能するようになります。 さらに、同社は、マシンが画像をより効率的に理解できるようにするために、「モンクスキントーンスケール」を利用して物事をさらに推し進めることを約束しています。

さらに、キューフレーズ「Hey Google」をもっと言う必要性を減らすことを期待して、Googleはさらに多くを含めています 簡単なフレーズ NestHubMaxで。 これにより、ユーザーはデバイスのカメラを見つめたり、カメラの前に立ったりすることなく、作業が簡単になります。 ルックアンドトークと同様に、クイックフレーズの作業を管理するボイスマッチもオンとオフを切り替えることができます。

グーグルによって明らかにされた改善は今回アシスタントをより満足させるが、グーグルはそれが将来的にソフトウェアのためにまだより多くの計画を持っていると言います。 これには、「人間の発話のニュアンスを理解する」ためのより優れた発話および言語モデルを提供することが含まれます。 現在、同社はカスタム設計されたTensorチップに取り組んでおり、アシスタントがデバイス上の機械学習タスクを可能な限り最速で処理できるようにしています。 成功すると、この有望なテクノロジーは、アシスタントが不要なフィラー(「uhm」や「ahh」など)が存在する場合でも人間の会話をよりよく理解するのに役立ち、誰かが話しているときに一時停止すると言います。

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *