Un brevet effrayant de Microsoft permettrait à Windows de surveiller tout ce que vous faites, de l'envoyer à Bing, pour de meilleurs résultats de recherche

Icône de temps de lecture 6 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

effrayant-cortana

En parcourant la bibliothèque de brevets de Microsoft, nous rencontrons souvent des idées que nous souhaitons qu'elles mettent en œuvre, mais qui ne sont jamais parvenues à un produit.

Aujourd'hui, nous sommes tombés sur le contraire - une idée dont nous espérons que le temps ne viendra jamais.

Le brevet, "QUERY FORMULATION VIA TASK CONTINUUM", publié hier (22/9/2016), note que la recherche efficace est améliorée si plus d'informations sont disponibles concernant l'intention de l'utilisateur, en donnant l'exemple de quelqu'un qui fait un rapport scolaire sur la danse, et notant que bien que l'utilisateur ait déjà effectué du travail, lorsqu'il appuie sur le navigateur pour effectuer une recherche, le moteur de recherche n'a aucune idée de ce sur quoi l'utilisateur travaille, à l'exception de ce qu'il a tapé dans la barre de recherche.

Ils notent :

Les gens utilisent plusieurs applications de bureau pour effectuer une seule tâche. Par exemple, si un utilisateur fait une recherche sur le thème « danse » pour l'école, l'utilisateur utilisera une première application pour écrire des choses ainsi qu'une seconde application comme un navigateur, pour rechercher différents styles de danse. Or, dans les systèmes existants, les deux applications sont complètement déconnectées l'une de l'autre. La première application ne fournit pas au navigateur d'indications implicites sur ce que l'utilisateur pourrait rechercher lorsqu'il y a un passage de la première application à la seconde application. L'utilisateur perçoit les tâches dans la totalité. Cependant, étant donné que les applications sont généralement déconnectées et non médiatisées de quelque manière que ce soit par le système d'exploitation (OS), le système informatique n'a aucune idée de l'objectif global de l'utilisateur.

La solution de Microsoft à cette énigme est d'avoir un agent ou un "médiateur" surveillant ce que l'utilisateur fait dans des "applications tierces actives" telles qu'un lecteur PDF de traitement de texte, reconnaissant des images ou du texte à partir des photos qu'il regarde, reconnaissant de la musique ou son, leur emplacement et d'autres données contextuelles, en supprimant les informations personnellement identifiables de ces données et en les ajoutant d'une manière ou d'une autre à la requête de recherche pour produire des résultats mieux classés et plus ciblés.

Le brevet note :

L'architecture décrite comprend un composant de médiation (par exemple, une API (interface de programme d'application) faisant partie du système d'exploitation (OS)) qui identifie les applications engagées - les applications avec lesquelles l'utilisateur interagit pour l'exécution de la tâche (contrairement aux applications dormantes - les applications que le l'utilisateur n'interagit pas avec pour l'achèvement des tâches), et rassemble et surveille activement les informations des applications engagées (par exemple, le texte affiché directement à l'utilisateur, le texte intégré dans les photos, l'empreinte digitale des chansons, etc.) pour déduire le contexte de travail d'un utilisateur . Le contexte inféré peut ensuite être transmis à l'une des applications, comme un navigateur (le contexte inféré sous une forme qui ne franchit pas la barrière de la confidentialité) pour fournir un meilleur classement des requêtes suggérées via le fournisseur de recherche préféré. Étant donné que le contexte est déduit dans les concepts, aucune PII (informations personnellement identifiables) n'est communiquée sans le consentement de l'utilisateur. Seuls des concepts contextuels de très haut niveau sont fournis aux moteurs de recherche.
L'architecture permet la capture de signaux (par exemple, texte brut affiché à l'utilisateur, texte reconnu à partir d'images, audio d'une chanson en cours de lecture, etc.) et regroupe ces signaux en concepts contextuels. Ces signaux sont des données de haut niveau (par exemple, des mots) qui aident à identifier ce que fait l'utilisateur. Cet acte de capture de signaux est temporel, en ce sens qu'il peut être en constante évolution (par exemple, similaire à la moyenne courante des concepts contextuels). Les signaux peuvent changer continuellement en fonction de ce que l'utilisateur fait à l'instant T (et de ce que l'utilisateur a fait de T-10 jusqu'à l'instant T).
Lors de l'utilisation de l'application de navigateur en tant qu'application qui utilise les signaux capturés, le navigateur diffuse et reçoit (par exemple, en continu, périodiquement, à la demande, etc.) avec le composant de médiation via une API de médiation du composant de médiation pour récupérer le dernier signal contextuel. notions.
Lorsque l'utilisateur interagit éventuellement avec le navigateur ou est censé interagir avec lui (ce qui peut être calculé comme se produisant fréquemment et/ou sur la base d'un historique d'actions séquentielles de l'utilisateur qui entraînent l'interaction suivante de l'utilisateur avec le navigateur), les concepts contextuels sont envoyés au moteur de recherche avec le préfixe de requête. Le moteur de recherche (par exemple, Bing™ et Cortana™ (un assistant de reconnaissance vocale numérique personnel intelligent) de Microsoft Corporation) utilise des classements contextuels pour ajuster le classement par défaut des requêtes suggérées par défaut afin de produire des requêtes suggérées plus pertinentes pour le moment. Le système d'exploitation, comprenant la fonction de composant de médiation, suit toutes les données textuelles affichées à l'utilisateur par n'importe quelle application, puis effectue un regroupement pour déterminer l'intention de l'utilisateur (contextuellement).
L'intention de l'utilisateur déduite envoyée comme signal aux fournisseurs de recherche pour améliorer le classement des suggestions de requête, permet une amélioration correspondante de l'expérience utilisateur car les suggestions de requête sont plus pertinentes par rapport à ce que l'utilisateur essaie réellement d'accomplir. L'architecture n'est pas limitée au texte, mais peut utiliser le texte reconnu dans les photos affichées ainsi que les informations de géolocalisation (par exemple, le système de positionnement global (GPS)) fournies dans le cadre des métadonnées de la photo. De même, un autre signal peut être l'empreinte audio d'une chanson en cours de lecture.
Comme indiqué, la désambiguïsation des requêtes est résolue grâce au cache contextuel et partagé qui peut être utilisé par diverses applications pour améliorer la pertinence de la recherche, la confidentialité est maintenue car seule une quantité minimale d'informations est envoyée d'une application à l'autre, et la le contexte utilisateur peut être partagé entre les applications, les composants et les appareils.
Le composant de médiation peut faire partie du système d'exploitation, et/ou un module ou composant séparé en communication avec le système d'exploitation, par exemple. Dans le cadre du système d'exploitation, le composant de médiation identifie les applications non-OS engagées sur l'appareil et rassemble et surveille activement les informations des applications engagées pour déduire le contexte de travail de l'utilisateur. Le contexte déduit peut ensuite être transmis à l'une des applications, telles que le navigateur, de manière sécurisée pour fournir un classement amélioré pour les requêtes suggérées via le fournisseur de recherche préféré.

Bref, Clippy sous stéroïdes.

La principale préoccupation avec un tel système est bien sûr la fuite de données personnelles malgré les prétendues garanties de confidentialité de Microsoft ou la mauvaise lecture du contexte de l'utilisateur, ce qui entraîne plus de frustration (un autre problème de Clippy).

D'un autre côté, un agent très intelligent serait certainement mieux s'il savait tout de moi, et nombreux sont ceux qui disent que la vie privée est déjà morte.

Le brevet est à certains égards similaire à Now on Tap ou Screen Search de Google, qui gratte un écran d'application pour du texte et d'autres informations, puis lance une recherche Google contextuelle. Cela semble cependant un peu plus étendu et beaucoup plus autonome.

Que pensent nos lecteurs de ce brevet ? Faites-le nous savoir ci-dessous.

En savoir plus sur les sujets : bing, Cortana, microsoft, brevet, Confidentialité