Patente assustadora da Microsoft faria o Windows assistir tudo o que você faz, enviá-lo para o Bing, para obter melhores resultados de pesquisa

Ícone de tempo de leitura 6 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

assustador-cortana

Navegando pela biblioteca de patentes da Microsoft, muitas vezes encontramos ideias que gostaríamos que fossem implementadas, mas que nunca chegaram a um produto.

Hoje nos deparamos com o oposto – uma ideia cuja hora esperamos que nunca chegue.

A patente “QUERY FORMULATION VIA TASK CONTINUUM”, publicada ontem (22/9/2016), observa que a busca eficiente é aprimorada se houver mais informações disponíveis sobre a intenção do usuário, dando o exemplo de alguém fazendo um relatório escolar sobre dança, e observando que apesar de o usuário já ter feito algum trabalho, ao acessar o navegador para pesquisar o mecanismo de busca não teria a menor ideia do que o usuário está trabalhando, exceto o que digitou na barra de pesquisa.

Eles observam:

As pessoas usam vários aplicativos de desktop para concluir uma única tarefa. Por exemplo, se um usuário estiver pesquisando o tópico “dança” para a escola, o usuário usará um primeiro aplicativo para anotar as coisas, bem como um segundo aplicativo, como um navegador, para pesquisar diferentes estilos de dança. No entanto, em sistemas existentes, os dois aplicativos são completamente desconectados um do outro. O primeiro aplicativo não fornece dicas implícitas ao navegador sobre o que o usuário pode estar procurando quando há uma troca do primeiro aplicativo para o segundo aplicativo. O usuário percebe as tarefas na totalidade. No entanto, como os aplicativos geralmente são desconectados e não mediados de forma alguma pelo sistema operacional (SO), o sistema de computação não tem ideia do objetivo geral do usuário.

A solução da Microsoft para este enigma é ter um agente ou “mediador” observando o que o usuário está fazendo em “aplicativos de terceiros ativos”, como um leitor de PDF de processador de texto, reconhecendo imagens ou texto das fotos que estão vendo, reconhecendo música ou som, sua localização e outros dados contextuais, removendo informações de identificação pessoal desses dados e adicionando-as de alguma forma à consulta de pesquisa para produzir resultados mais bem classificados e mais focados.

A patente observa:

A arquitetura divulgada compreende um componente de mediação (por exemplo, uma API (interface de programa de aplicativo) como parte do sistema operacional (SO)) que identifica aplicativos engajados - aplicativos com os quais o usuário está interagindo para conclusão de tarefas (em contraste com aplicativos inativos - aplicativos que o usuário não está interagindo para a conclusão da tarefa) e coleta e monitora ativamente as informações dos aplicativos envolvidos (por exemplo, texto exibido diretamente ao usuário, texto incorporado em fotos, impressão digital de músicas etc.) para inferir o contexto de trabalho de um usuário . O contexto inferido pode então ser entregue a um dos aplicativos, como um navegador (o contexto inferido em um formulário que não cruza a barreira de privacidade) para fornecer classificação aprimorada para as consultas sugeridas por meio do provedor de pesquisa preferido. Como o contexto é inferido em conceitos, nenhuma PII (informações de identificação pessoal) é comunicada sem o consentimento do usuário - apenas conceitos contextuais de alto nível são fornecidos aos mecanismos de pesquisa.
A arquitetura permite a captura de sinais (por exemplo, texto simples exibido para o usuário, texto reconhecido de imagens, áudio de uma música que está tocando e assim por diante) e agrupa esses sinais em conceitos contextuais. Esses sinais são dados de alto nível (por exemplo, palavras) que ajudam a identificar o que o usuário está fazendo. Esse ato de capturar sinais é temporal, pois pode estar em constante mudança (por exemplo, semelhante à média de execução de conceitos contextuais). Os sinais podem mudar continuamente com base no que o usuário está fazendo no tempo T (e no que o usuário fez de T-10 até o tempo T).
Ao usar o aplicativo do navegador como o aplicativo que usa os sinais capturados, o navegador transmite e recebe (por exemplo, continuamente, periodicamente, sob demanda etc.) com o componente de mediação por meio de uma API de mediação do componente de mediação para buscar o contexto contextual mais recente conceitos.
Quando o usuário eventualmente interage com o navegador, ou é previsto para interagir com ele (como pode ser calculado como ocorrendo com frequência e/ou com base em um histórico de ações sequenciais do usuário que resulta na próxima interação do usuário com o navegador), os conceitos contextuais são enviados ao provedor de pesquisa junto com o prefixo da consulta. O mecanismo de pesquisa (por exemplo, Bing™ e Cortana™ (um assistente de reconhecimento de fala digital pessoal inteligente) da Microsoft Corporation) usa classificações contextuais para ajustar a classificação padrão das consultas sugeridas padrão para produzir consultas sugeridas mais relevantes para o momento. O sistema operacional, composto pela função de componente de mediação, rastreia todos os dados textuais exibidos ao usuário por qualquer aplicativo e, em seguida, realiza o agrupamento para determinar a intenção do usuário (contextualmente).
A intenção inferida do usuário enviada como um sinal aos provedores de pesquisa para melhorar a classificação das sugestões de consulta permite uma melhoria correspondente na experiência do usuário, pois as sugestões de consulta são mais relevantes para o que o usuário está realmente tentando alcançar. A arquitetura não se restringe ao texto, mas pode utilizar texto reconhecido nas fotos exibidas, bem como as informações de geolocalização (por exemplo, sistema de posicionamento global (GPS)) fornecidas como parte dos metadados das fotos. Da mesma forma, outro sinal pode ser a impressão digital de áudio de uma música que está tocando.
Conforme indicado, a desambiguação da consulta é resolvida devido ao cache contextual e compartilhado que pode ser utilizado por vários aplicativos para melhorar a relevância da pesquisa, a privacidade é mantida, uma vez que apenas uma quantidade mínima de informações é enviada de um aplicativo para outro e o resultado inferido o contexto do usuário pode ser compartilhado entre aplicativos, componentes e dispositivos.
O componente de mediação pode ser parte do SO e/ou um módulo ou componente separado em comunicação com o SO, por exemplo. Como parte do sistema operacional, o componente de mediação identifica os aplicativos não pertencentes ao sistema operacional no dispositivo e reúne e monitora ativamente as informações dos aplicativos envolvidos para inferir o contexto de trabalho do usuário. O contexto inferido pode então ser passado para um dos aplicativos, como o navegador de forma segura, para fornecer uma classificação melhorada para as consultas sugeridas por meio do provedor de pesquisa preferido.

Em suma, Clippy em esteróides.

A principal preocupação com esse sistema é, obviamente, o vazamento de dados pessoais, apesar das supostas salvaguardas de privacidade da Microsoft ou a leitura errada do contexto do usuário, levando a mais frustração (outro problema do Clippy).

Por outro lado, um agente muito inteligente definitivamente seria melhor se soubesse tudo sobre mim, e há muitos que dizem que a privacidade já está morta.

A patente é, de certa forma, semelhante ao Now on Tap ou Screen Search do Google, que raspa uma tela de aplicativo para texto e outras informações e, em seguida, inicia uma pesquisa contextual do Google. No entanto, parece um pouco mais abrangente e muito mais autônomo.

O que nossos leitores pensam desta patente? Deixe-nos saber abaixo.

Mais sobre os tópicos: bing, Cortana, microsoft, patente, Privacidade