Ferramenta interna · leitura de criativo

Como o Retina funciona

Em palavras simples: você sobe uma peça (imagem ou filme) e o Retina devolve uma leitura em camadas, para onde o olho vai, que emoção ela desperta, o que ela evoca no mundo lá fora, e como o cérebro provavelmente reage. Esta página explica, sem pressa e sem jargão, o que cada parte faz, como ela chega no resultado, e onde estão os limites.

O que é

O Retina é um instrumento de leitura, não um juiz. Ele não dá nota nem diz se a peça é boa. Ele revela como a peça é percebida e ajuda o time a discutir o porquê. Pense num par de óculos que mostra coisas que o olho desarmado não vê de imediato: onde a atenção se concentra, se a marca está no lugar certo, o tom emocional, o momento cultural.

É de uso interno e educativo. Roda sobre modelos e bases de código aberto e de pesquisa, mais a IA de visão do Google (Gemini). Cada número é uma pista sobre uma camada da percepção, e a maioria já é prevista por modelos testados contra avaliações de pessoas reais. Nunca é promessa de venda.

A ideia central: cada camada diz de onde ela vem

O ponto mais importante: nem toda métrica tem o mesmo peso de verdade. O Retina é honesto sobre isso e marca cada camada com a sua natureza:

Validado testado em gente modelo comparado com avaliações de pessoas reais, com o acerto medido e mostrado. É o terreno mais firme, e hoje é a maioria das camadas (atenção, marca, clareza, afeto, emoção, memória e neural).
Contexto mundo em volta dados reais de fora (busca no Google), pra situar a peça no momento.
Prévia na hora contas rápidas feitas no seu navegador que aparecem antes da análise completa. Servem de aquecimento até o modelo validado entrar no lugar.

Sempre que ler um número, olhe a etiqueta da camada: ela diz se aquilo foi testado contra gente real, se é contexto do mundo lá fora, ou só uma prévia rápida.

Como ler na prática

Suba uma imagem (JPG/PNG) ou um vídeo (MP4/MOV). Tudo é processado na hora.
Arraste um retângulo sobre a marca ou a mensagem-chave. É como o Retina mede se a marca cai onde a atenção está.
Use o seletor sobre a peça para ver saliência, heatmap ou fog (explicados abaixo).
Clique em Analisar. Em paralelo, ele lê afeto, emoção, cultura e neural, e escreve a leitura em texto.
Comece pela Leitura geral (o resumo em linguagem simples), depois desça para as camadas e a leitura detalhada.

As camadas, uma a uma

Atenção validado

Para onde o olho é puxado nos primeiros instantes. O Retina mostra um mapa de saliência: cada ponto da imagem recebe uma nota de "quão chamativo" é. Os desenhos sobre a peça são uma prévia na hora; ao clicar em Analisar, o número vem do DeepGaze IIE, um modelo validado que prevê o olhar humano (acerta ~0,88 de AUC em bases públicas de eye-tracking).

como mede: prévia: contraste central-periférico na imagem, no navegador. Na análise: mapa do DeepGaze IIE, modelo validado contra eye-tracking de gente real.
como ler: nota alta = um foco claro; nota baixa = olhar disperso. Os três modos de visualização ajudam: saliência (brilho âmbar onde chama), heatmap (mapa de calor frio→quente) e fog (o que o olho pega fica nítido, o resto some na névoa).
limite: prevê para onde o olhar tende a ir, não garante o que a pessoa vai pensar.

Destaque da marca validado

A marca está onde a atenção está? O Retina soma a atenção que cai dentro do retângulo que você desenhou e compara com o total da peça, usando o mesmo mapa validado do DeepGaze.

como mede: fração do mapa de saliência (DeepGaze, validado) contida na caixa da marca.
como ler: alto = a marca é vista cedo e bem; baixo = ela se perde, mesmo numa peça bonita. É a métrica mais prática para separar "peça bonita" de "peça que comunica".
limite: depende de você posicionar a caixa certa.

Clareza validado

Quão fácil é processar a peça num relance. Mede a poluição visual: quanta informação compete pela atenção. Menos poluição, mais clareza. Ao Analisar, usa o Subband Entropy (Rosenholtz et al., 2007), uma métrica de clutter revisada por pares que acompanha a dificuldade de busca de pessoas reais.

como mede: prévia: índice rápido de bordas e cor no navegador. Na análise: Subband Entropy, métrica publicada de poluição visual, invertida.
como ler: alta clareza = leitura rápida, poucos focos disputando; baixa = a peça cansa o olho.
limite: clareza não é qualidade. Uma peça densa pode ser uma escolha proposital.

Afeto validado

Como a peça provavelmente faz sentir, em dois eixos. A Energia (na psicologia, "arousal"): o quanto a peça é agitada ou calma. E o Clima (na psicologia, "valência"): se o tom puxa pro agradável ou pro desagradável. Um modelo prevê os dois a partir da imagem, treinado e validado contra as notas de gente real do OASIS (Kurdi et al. 2017; 900 imagens, ~100 avaliações por imagem). O acerto medido por validação cruzada é r=0,80 no Clima e r=0,67 na Energia. Dos dois sai uma "motivação" como índice derivado.

como mede: a imagem vira características visuais (CLIP), mapeadas para Energia e Clima a partir das notas humanas do OASIS.
como ler: direção do clima emocional, ancorada em gente real. 50 no Clima é neutro.
limite: base internacional, não brasileira: a direção é robusta, a calibração cultural é aproximada.

Emoção validado

Enquanto o afeto dá dois eixos (energia e clima), esta camada nomeia qual emoção a peça mais desperta, entre oito: diversão, deslumbre, contentamento, empolgação (as quatro positivas), raiva, nojo, medo e tristeza (as quatro negativas). Um classificador foi treinado e testado no EmoSet (Yang et al. 2023), uma base de 118 mil imagens rotuladas por pessoas. Num teste com imagens que ele nunca viu, acerta a emoção exata em 80% dos casos e se o clima é bom ou ruim em 95%.

como mede: a imagem vira características visuais (CLIP) e um classificador aponta a probabilidade de cada uma das 8 emoções.
como ler: a emoção do topo é a aposta principal; o ranking mostra as próximas. Útil pra checar se o sentimento que a peça desperta é o que a campanha quer.
limite: são 8 emoções básicas, não toda a paleta humana, e a base é internacional. Boa direção, não veredito.

Cultura contexto real

Esta camada não lê a peça, lê o mundo em volta. A IA extrai os temas que a peça evoca (ex: aconchego, festa, tecnologia) e cruza com o Google: aquilo está em alta, estável ou em queda no Brasil?

como mede: temas extraídos pela visão, cruzados com o interesse de busca (Google Trends, com apoio da Busca do Google quando o Trends não responde).
como ler: ajuda a responder "por que isso ressoa agora". Em alta = a peça pega uma onda; em queda = pode soar datada.
limite: tendência é sinal atrasado: serve de contexto, nunca de veredito sobre a peça.

Neural validado

A camada mais ousada, agora com chão embaixo. Um modelo prevê, a partir da imagem, que regiões do córtex visual a peça mais aciona: visão inicial (bordas, contraste), V4 (cor e forma), objetos, faces, lugares, corpos, texto. O modelo foi ajustado a exames de fMRI reais (o NSD, Natural Scenes Dataset, 20 sessões, 7456 imagens), e o acerto de cada região é medido por validação cruzada (ex.: corpos r≈0,56, lugares r≈0,45, faces r≈0,44).

como mede: a peça vira um vetor de características visuais (CLIP), mapeado para a resposta de cada região aprendida a partir do fMRI humano.
como ler: onde a peça "fala mais alto" no sistema visual. Ex: muita ativação de faces sugere que rostos dominam a leitura.
limite: é previsão a partir do cérebro de 1 pessoa, não brasileira, e a visão inicial (V1 a V4) segue como prévia de baixo nível. Direção robusta, calibração local aproximada.

Camadas de apoio

Aderência por canal

Cada mídia pede coisas diferentes: outdoor vive de 1 a 2 segundos e precisa de atenção, marca e clareza altíssimas; TV e cinema invertem, valorizam arco emocional e memória. O Retina compara o perfil da peça (as seis métricas) com o que cada canal exige e mostra um ranking de encaixe.

É recomendação de contexto, não veredito: baixa aderência num canal pode ser uma escolha criativa deliberada. Os pesos de cada canal são editáveis.

Benchmark e acervo

Você salva cada análise num acervo (no seu navegador). O radar compara o perfil da peça atual com uma base: a média do acervo, uma peça específica, ou o que um canal exige. As barras mostram o delta por métrica. É como a peça se sai frente ao conteúdo comparado.

Público sintético (Espelho)

O Retina conversa com o Espelho, a plataforma de personas sintéticas da população brasileira. Você descreve o território da peça e vê quais personas mais conversam com ela. Responde "quem ressoa com isso", como direção, nunca como tamanho de audiência.

Vídeo

Para filmes, há dois olhares: o Retina amostra cerca de um frame por segundo e calcula as métricas ao longo do tempo (a curva de atenção, clareza e afeto, com um scrubber para percorrer). E, para a leitura qualitativa, o Gemini assiste ao filme inteiro (com movimento e áudio), lendo o arco, não quadros soltos.

As leituras em texto

Duas, ambas escritas pela IA com os números como lente: a Leitura geral (um resumo curto, para leigo, do que a peça faz) e a leitura detalhada em seções (síntese, atenção, afeto, cultura, tensões, fechamento). Há ainda um campo para perguntar qualquer coisa sobre a peça. Os textos aparecem em streaming, palavra por palavra.

O motor por trás

Gemini 2.5 Flash (Google Vertex AI): toda a IA que lê e escreve, afeto, temas, leitura geral, leitura detalhada, perguntas, e a leitura do filme inteiro.
Computação no navegador: as prévias instantâneas de atenção, destaque da marca, clareza e as curvas do vídeo, em JavaScript, sem modelo de IA.
DeepGaze, ResMem, OASIS, EmoSet e NSD: os modelos validados que entram ao Analisar (atenção/marca, memória, afeto, emoção e neural). Rodam num serviço dedicado.
CLIP: a rede de visão que alimenta as camadas neural, afeto e emoção.
Google Trends e Busca: a camada de cultura.
Espelho: as personas sintéticas para a ponte de público.

Atenção, marca, clareza e o vídeo rodam localmente; o resto é chamada de servidor. Por isso a primeira leitura pode levar alguns segundos.

Validação: o que foi testado contra gente real

Rigor científico começa por ser honesto sobre o peso de verdade de cada número. Este é o estado atual, sem maquiagem, com o acerto medido de cada camada:

Memorabilidade validado

Roda o ResMem (Needell & Bainbridge, 2022), um modelo treinado e revisado por pares. Validação publicada: correlação de Spearman ρ ≈ 0,67 com a memória de pessoas reais (base LaMem). Quando há mais de um frame, mostramos a variação entre eles como incerteza.

Cultura dado real

O interesse de busca vem do Google (dado real do mundo). É contexto medido, não opinião. A extração de temas é feita pela IA de visão.

Atenção e destaque da marca modelo validado

O mapa de saliência vem do DeepGaze IIE (Linardos et al., 2021), modelo estado da arte de predição de fixação ocular, com AUC ≈ 0,88 publicado em MIT1003 e CAT2000, esse número valida o MAPA. O que mostramos como "Atenção" e "Marca" são índices derivados desse mapa (concentração da saliência; fração que cai na caixa da marca), transparentes mas não são o AUC em si. Os overlays interativos usam um proxy local instantâneo, por velocidade.

Clareza métrica publicada

Ao Analisar, a clareza vem do Subband Entropy (Rosenholtz et al., 2007), uma medida de clutter visual revisada por pares que correlaciona com a dificuldade de busca humana. Menos clutter, mais clareza. O índice rápido do navegador serve só de prévia instantânea.

Afeto validado

Modelo ajustado às notas de gente real do OASIS (Kurdi et al. 2017; 900 imagens, ~100 avaliações por imagem). Acerto medido por validação cruzada: Clima (valência) r=0,80, Energia (arousal) r=0,67. Deixou de ser estimativa de IA: agora é previsão calibrada contra gente real.

Emoção validado

Classificador de 8 emoções treinado e testado no EmoSet (Yang et al. 2023; 118 mil imagens rotuladas por humanos). Acurácia medida em teste separado (2400 imagens): top-1 de 80% e clima bom/ruim de 95%. Acerta acima do próprio modelo de referência do dataset.

Neural validado

Encoder de resposta cortical ajustado ao NSD (Natural Scenes Dataset, fMRI 7T humano, 20 sessões): Ridge das features CLIP sobre a resposta de cada região (FFA, PPA, EBA, VWFA), com R por região medido por validação cruzada (ex.: EBA r≈0,56, PPA r≈0,45, FFA r≈0,44). O visual inicial (V1 a V4) segue como proxy de baixo nível, pois features semânticas não capturam o córtex inicial.

Hoje todas as camadas de percepção são modelos validados contra dados públicos rotulados por humanos: atenção e destaque da marca (DeepGaze), clareza (Subband Entropy), afeto (OASIS), emoção (EmoSet), memória (ResMem) e neural (NSD/fMRI). A cultura usa dado real de busca do Google. Cada uma reporta a performance medida em vez de afirmar precisão sem prova, e não dependemos de coletar dado novo.

Limite honesto que permanece: nenhum desses dados é brasileiro. A validade cultural local fica como ressalva declarada, não como número medido. É o teto desta abordagem, e o Retina diz isso de frente em vez de fingir.

Limites e ética

A ferramenta ensina, não julga. Cada saída é a leitura de uma camada da percepção, nunca promessa de venda ou eficácia. A recomendação por canal é contexto, não nota.

Os modelos foram treinados em dados majoritariamente não-brasileiros. A validade cultural é uma ressalva permanente, não um dado. Use o Retina como lente para discutir a peça com mais gente na mesa, não como árbitro que encerra a discussão.

Uso estritamente interno e não-comercial, respeitando as licenças de pesquisa dos modelos e bases. O Retina não substitui pesquisa com pessoas reais; ele a antecede e a enriquece.

← voltar à ferramenta

Galeria · Retina. Leitura assistida de criativo. Esta página explica o método; a ferramenta o aplica.