Como o Retina funciona
Em palavras simples: você sobe uma peça (imagem ou filme) e o Retina devolve uma leitura em camadas, para onde o olho vai, que emoção ela desperta, o que ela evoca no mundo lá fora, e como o cérebro provavelmente reage. Esta página explica, sem pressa e sem jargão, o que cada parte faz, como ela chega no resultado, e onde estão os limites.
O que é
O Retina é um instrumento de leitura, não um juiz. Ele não dá nota nem diz se a peça é boa. Ele revela como a peça é percebida e ajuda o time a discutir o porquê. Pense num par de óculos que mostra coisas que o olho desarmado não vê de imediato: onde a atenção se concentra, se a marca está no lugar certo, o tom emocional, o momento cultural.
É de uso interno e educativo. Roda sobre modelos e bases de código aberto e de pesquisa, mais a IA de visão do Google (Gemini). Cada número é uma pista sobre uma camada da percepção, e a maioria já é prevista por modelos testados contra avaliações de pessoas reais. Nunca é promessa de venda.
A ideia central: cada camada diz de onde ela vem
O ponto mais importante: nem toda métrica tem o mesmo peso de verdade. O Retina é honesto sobre isso e marca cada camada com a sua natureza:
- Validado testado em gente modelo comparado com avaliações de pessoas reais, com o acerto medido e mostrado. É o terreno mais firme, e hoje é a maioria das camadas (atenção, marca, clareza, afeto, emoção, memória e neural).
- Contexto mundo em volta dados reais de fora (busca no Google), pra situar a peça no momento.
- Prévia na hora contas rápidas feitas no seu navegador que aparecem antes da análise completa. Servem de aquecimento até o modelo validado entrar no lugar.
Sempre que ler um número, olhe a etiqueta da camada: ela diz se aquilo foi testado contra gente real, se é contexto do mundo lá fora, ou só uma prévia rápida.
Como ler na prática
- Suba uma imagem (JPG/PNG) ou um vídeo (MP4/MOV). Tudo é processado na hora.
- Arraste um retângulo sobre a marca ou a mensagem-chave. É como o Retina mede se a marca cai onde a atenção está.
- Use o seletor sobre a peça para ver saliência, heatmap ou fog (explicados abaixo).
- Clique em Analisar. Em paralelo, ele lê afeto, emoção, cultura e neural, e escreve a leitura em texto.
- Comece pela Leitura geral (o resumo em linguagem simples), depois desça para as camadas e a leitura detalhada.
As camadas, uma a uma
Atenção validado
Para onde o olho é puxado nos primeiros instantes. O Retina mostra um mapa de saliência: cada ponto da imagem recebe uma nota de "quão chamativo" é. Os desenhos sobre a peça são uma prévia na hora; ao clicar em Analisar, o número vem do DeepGaze IIE, um modelo validado que prevê o olhar humano (acerta ~0,88 de AUC em bases públicas de eye-tracking).
- como mede
- prévia: contraste central-periférico na imagem, no navegador. Na análise: mapa do DeepGaze IIE, modelo validado contra eye-tracking de gente real.
- como ler
- nota alta = um foco claro; nota baixa = olhar disperso. Os três modos de visualização ajudam: saliência (brilho âmbar onde chama), heatmap (mapa de calor frio→quente) e fog (o que o olho pega fica nítido, o resto some na névoa).
- limite
- prevê para onde o olhar tende a ir, não garante o que a pessoa vai pensar.
Destaque da marca validado
A marca está onde a atenção está? O Retina soma a atenção que cai dentro do retângulo que você desenhou e compara com o total da peça, usando o mesmo mapa validado do DeepGaze.
- como mede
- fração do mapa de saliência (DeepGaze, validado) contida na caixa da marca.
- como ler
- alto = a marca é vista cedo e bem; baixo = ela se perde, mesmo numa peça bonita. É a métrica mais prática para separar "peça bonita" de "peça que comunica".
- limite
- depende de você posicionar a caixa certa.
Clareza validado
Quão fácil é processar a peça num relance. Mede a poluição visual: quanta informação compete pela atenção. Menos poluição, mais clareza. Ao Analisar, usa o Subband Entropy (Rosenholtz et al., 2007), uma métrica de clutter revisada por pares que acompanha a dificuldade de busca de pessoas reais.
- como mede
- prévia: índice rápido de bordas e cor no navegador. Na análise: Subband Entropy, métrica publicada de poluição visual, invertida.
- como ler
- alta clareza = leitura rápida, poucos focos disputando; baixa = a peça cansa o olho.
- limite
- clareza não é qualidade. Uma peça densa pode ser uma escolha proposital.
Afeto validado
Como a peça provavelmente faz sentir, em dois eixos. A Energia (na psicologia, "arousal"): o quanto a peça é agitada ou calma. E o Clima (na psicologia, "valência"): se o tom puxa pro agradável ou pro desagradável. Um modelo prevê os dois a partir da imagem, treinado e validado contra as notas de gente real do OASIS (Kurdi et al. 2017; 900 imagens, ~100 avaliações por imagem). O acerto medido por validação cruzada é r=0,80 no Clima e r=0,67 na Energia. Dos dois sai uma "motivação" como índice derivado.
- como mede
- a imagem vira características visuais (CLIP), mapeadas para Energia e Clima a partir das notas humanas do OASIS.
- como ler
- direção do clima emocional, ancorada em gente real. 50 no Clima é neutro.
- limite
- base internacional, não brasileira: a direção é robusta, a calibração cultural é aproximada.
Emoção validado
Enquanto o afeto dá dois eixos (energia e clima), esta camada nomeia qual emoção a peça mais desperta, entre oito: diversão, deslumbre, contentamento, empolgação (as quatro positivas), raiva, nojo, medo e tristeza (as quatro negativas). Um classificador foi treinado e testado no EmoSet (Yang et al. 2023), uma base de 118 mil imagens rotuladas por pessoas. Num teste com imagens que ele nunca viu, acerta a emoção exata em 80% dos casos e se o clima é bom ou ruim em 95%.
- como mede
- a imagem vira características visuais (CLIP) e um classificador aponta a probabilidade de cada uma das 8 emoções.
- como ler
- a emoção do topo é a aposta principal; o ranking mostra as próximas. Útil pra checar se o sentimento que a peça desperta é o que a campanha quer.
- limite
- são 8 emoções básicas, não toda a paleta humana, e a base é internacional. Boa direção, não veredito.
Cultura contexto real
Esta camada não lê a peça, lê o mundo em volta. A IA extrai os temas que a peça evoca (ex: aconchego, festa, tecnologia) e cruza com o Google: aquilo está em alta, estável ou em queda no Brasil?
- como mede
- temas extraídos pela visão, cruzados com o interesse de busca (Google Trends, com apoio da Busca do Google quando o Trends não responde).
- como ler
- ajuda a responder "por que isso ressoa agora". Em alta = a peça pega uma onda; em queda = pode soar datada.
- limite
- tendência é sinal atrasado: serve de contexto, nunca de veredito sobre a peça.
Neural validado
A camada mais ousada, agora com chão embaixo. Um modelo prevê, a partir da imagem, que regiões do córtex visual a peça mais aciona: visão inicial (bordas, contraste), V4 (cor e forma), objetos, faces, lugares, corpos, texto. O modelo foi ajustado a exames de fMRI reais (o NSD, Natural Scenes Dataset, 20 sessões, 7456 imagens), e o acerto de cada região é medido por validação cruzada (ex.: corpos r≈0,56, lugares r≈0,45, faces r≈0,44).
- como mede
- a peça vira um vetor de características visuais (CLIP), mapeado para a resposta de cada região aprendida a partir do fMRI humano.
- como ler
- onde a peça "fala mais alto" no sistema visual. Ex: muita ativação de faces sugere que rostos dominam a leitura.
- limite
- é previsão a partir do cérebro de 1 pessoa, não brasileira, e a visão inicial (V1 a V4) segue como prévia de baixo nível. Direção robusta, calibração local aproximada.
Camadas de apoio
Aderência por canal
Cada mídia pede coisas diferentes: outdoor vive de 1 a 2 segundos e precisa de atenção, marca e clareza altíssimas; TV e cinema invertem, valorizam arco emocional e memória. O Retina compara o perfil da peça (as seis métricas) com o que cada canal exige e mostra um ranking de encaixe.
É recomendação de contexto, não veredito: baixa aderência num canal pode ser uma escolha criativa deliberada. Os pesos de cada canal são editáveis.
Benchmark e acervo
Você salva cada análise num acervo (no seu navegador). O radar compara o perfil da peça atual com uma base: a média do acervo, uma peça específica, ou o que um canal exige. As barras mostram o delta por métrica. É como a peça se sai frente ao conteúdo comparado.
Público sintético (Espelho)
O Retina conversa com o Espelho, a plataforma de personas sintéticas da população brasileira. Você descreve o território da peça e vê quais personas mais conversam com ela. Responde "quem ressoa com isso", como direção, nunca como tamanho de audiência.
Vídeo
Para filmes, há dois olhares: o Retina amostra cerca de um frame por segundo e calcula as métricas ao longo do tempo (a curva de atenção, clareza e afeto, com um scrubber para percorrer). E, para a leitura qualitativa, o Gemini assiste ao filme inteiro (com movimento e áudio), lendo o arco, não quadros soltos.
As leituras em texto
Duas, ambas escritas pela IA com os números como lente: a Leitura geral (um resumo curto, para leigo, do que a peça faz) e a leitura detalhada em seções (síntese, atenção, afeto, cultura, tensões, fechamento). Há ainda um campo para perguntar qualquer coisa sobre a peça. Os textos aparecem em streaming, palavra por palavra.
O motor por trás
- Gemini 2.5 Flash (Google Vertex AI): toda a IA que lê e escreve, afeto, temas, leitura geral, leitura detalhada, perguntas, e a leitura do filme inteiro.
- Computação no navegador: as prévias instantâneas de atenção, destaque da marca, clareza e as curvas do vídeo, em JavaScript, sem modelo de IA.
- DeepGaze, ResMem, OASIS, EmoSet e NSD: os modelos validados que entram ao Analisar (atenção/marca, memória, afeto, emoção e neural). Rodam num serviço dedicado.
- CLIP: a rede de visão que alimenta as camadas neural, afeto e emoção.
- Google Trends e Busca: a camada de cultura.
- Espelho: as personas sintéticas para a ponte de público.
Atenção, marca, clareza e o vídeo rodam localmente; o resto é chamada de servidor. Por isso a primeira leitura pode levar alguns segundos.
Validação: o que foi testado contra gente real
Rigor científico começa por ser honesto sobre o peso de verdade de cada número. Este é o estado atual, sem maquiagem, com o acerto medido de cada camada:
Memorabilidade validado
Roda o ResMem (Needell & Bainbridge, 2022), um modelo treinado e revisado por pares. Validação publicada: correlação de Spearman ρ ≈ 0,67 com a memória de pessoas reais (base LaMem). Quando há mais de um frame, mostramos a variação entre eles como incerteza.
Cultura dado real
O interesse de busca vem do Google (dado real do mundo). É contexto medido, não opinião. A extração de temas é feita pela IA de visão.
Atenção e destaque da marca modelo validado
O mapa de saliência vem do DeepGaze IIE (Linardos et al., 2021), modelo estado da arte de predição de fixação ocular, com AUC ≈ 0,88 publicado em MIT1003 e CAT2000, esse número valida o MAPA. O que mostramos como "Atenção" e "Marca" são índices derivados desse mapa (concentração da saliência; fração que cai na caixa da marca), transparentes mas não são o AUC em si. Os overlays interativos usam um proxy local instantâneo, por velocidade.
Clareza métrica publicada
Ao Analisar, a clareza vem do Subband Entropy (Rosenholtz et al., 2007), uma medida de clutter visual revisada por pares que correlaciona com a dificuldade de busca humana. Menos clutter, mais clareza. O índice rápido do navegador serve só de prévia instantânea.
Afeto validado
Modelo ajustado às notas de gente real do OASIS (Kurdi et al. 2017; 900 imagens, ~100 avaliações por imagem). Acerto medido por validação cruzada: Clima (valência) r=0,80, Energia (arousal) r=0,67. Deixou de ser estimativa de IA: agora é previsão calibrada contra gente real.
Emoção validado
Classificador de 8 emoções treinado e testado no EmoSet (Yang et al. 2023; 118 mil imagens rotuladas por humanos). Acurácia medida em teste separado (2400 imagens): top-1 de 80% e clima bom/ruim de 95%. Acerta acima do próprio modelo de referência do dataset.
Neural validado
Encoder de resposta cortical ajustado ao NSD (Natural Scenes Dataset, fMRI 7T humano, 20 sessões): Ridge das features CLIP sobre a resposta de cada região (FFA, PPA, EBA, VWFA), com R por região medido por validação cruzada (ex.: EBA r≈0,56, PPA r≈0,45, FFA r≈0,44). O visual inicial (V1 a V4) segue como proxy de baixo nível, pois features semânticas não capturam o córtex inicial.
Limites e ética
Uso estritamente interno e não-comercial, respeitando as licenças de pesquisa dos modelos e bases. O Retina não substitui pesquisa com pessoas reais; ele a antecede e a enriquece.
← voltar à ferramenta