BERT – A Evolução dos Motores de Busca

Em finais de outubro de 2019, a Google lançou um novo algoritmo com o intuito de otimizar os resultados do motor de busca. Trata-se do BERT, isto é, o Bidirectional Encoder Representation from Transformers.

Considerado o maior passo, nos últimos cinco anos, para a evolução da indústria dos motores de busca, estima-se que afete uma em cada dez pesquisas.

Neste artigo, a Letrário informa sobre os fatores diferenciadores deste algoritmo, mostrando como se reflete nas pesquisas em língua portuguesa e quais as vantagens para a indústria da tradução.

A grande inovação deste novo algoritmo

  • Tal como indica o «B», de Bidirecional, no acrónimo, o BERT analisa o contexto de cada palavra-chave em ambas as direções. Por outras palavras, enquanto os algoritmos de busca tradicionais não contextualizam um termo ou só o contextualizam unidirecionalmente (tendo em conta apenas as palavras que precedem ou as que sucedem o termo em questão), o BERT analisa todo o contexto das palavras-chave pesquisadas.

Em 2018, a Google exemplificou este método de análise num artigo sobre o processamento da linguagem natural, no qual também anunciou os primeiros passos do BERT:

«[…] na frase “I accessed the bank account, um modelo contextual unidirecional apresentaria “bank” tendo em conta o fragmento “I accessed the”, mas não o fragmento “account”. Em contrapartida, o BERT apresenta o termo “bank” utilizando tanto o contexto que o precede quanto o que o sucede – “I accessed the” [] “account” […].»

Por exemplo, em português, para os motores de busca convencionais, a palavra «banco» teria o mesmo significado nas pesquisas «conta no banco» e «banco de jardim», podendo os mesmos apresentar resultados mistos – uns mais indicados e outros menos. Graças ao BERT, o motor de busca do Google «entende» o significado de cada expressão previamente e apresenta resultados mais adequados, revelando a natureza neural de aprendizagem profunda que caracteriza a rede onde se insere.

Ao «treinar» analisando o extenso corpus da Wikipedia, o BERT tornou-se capaz de entender nuances da linguagem humana.

O resultado mais evidente desta inovação será a capacidade do motor de busca para responder a pesquisas ou perguntas mais complexas do que o habitual.

Geralmente, os motores de busca usam as palavras-chave escritas pelos utilizadores e ignoram a ordem das palavras, os artigos e as preposições no âmbito da apresentação de resultados. Ou seja, partem do princípio de que o vocabulário essencial fornecerá a informação suficiente. Por sua vez, o BERT toma em consideração todos estes elementos da língua, que ajudam a disponibilizar resultados mais eficientes, ou seja, resultados que dão melhor resposta às pesquisas do utilizador. Esta inovação está implementada para a língua portuguesa, assim como para mais de 70 outras línguas.

Um exemplo da mudança nos motores de busca

Ao fazer uma pesquisa na área do turismo, com o intuito de descobrir quais são os requisitos para viajar de Portugal para o Brasil, o utilizador português poderá, como sempre, escrever a frase «documentos necessários em viagem de Portugal para o Brasil». 

No passado, as primeiras respostas do Google apontariam provavelmente para esclarecimentos sobre os requisitos exigidos a um cidadão brasileiro, que pretendesse viajar para Portugal. O Google não conseguia distinguir eficazmente qual a verdadeira relação introduzida pela ordem das palavras e pelas preposições. 

Com a ajuda do BERT, o Google é capaz de discernir que o ponto de origem da viagem é de facto Portugal e não o Brasil.

Evidentemente, não se notará diferença em pesquisas simples, nas quais se utilizam termos soltos. Razão pela qual se estima que o resultado será sentido apenas numa em cada dez pesquisas. Ainda assim, a importância deste avanço não deve ser desvalorizada.

O poder dos motores de busca para a tradução

Além de aplicar o BERT no motor de busca, a Google disponibilizou em 2018 o respetivo software em código aberto, possibilitando a utilização, e até a adaptação, desta nova tecnologia por parte de qualquer entidade, nos respetivos sistemas. Trata-se assim de mais uma funcionalidade que fomenta o avanço da tecnologia de análise da linguagem humana.

Os dispositivos atuais apresentam cada vez mais recursos para compreender o nosso discurso, o que possibilita um maior leque de opções e soluções lexicais e terminológicas acertadas,  aumentando a qualidade das traduções e revisões que fornecemos.

A Letrário procura manter-se sempre atualizada e utilizar os avanços tecnológicos mais eficientes, disponibilizando serviços linguísticos da maior qualidade. Se necessitar da tradução ou revisão de um texto ou documento, não hesite em contactar-nos.