quarta-feira, 3 de novembro de 2010

Ilusões de imagens híbridas



Como nosso sistema visual segrega informações de freqüência espacial?

A manipulação digital de imagens provê ilusões visuais incríveis e nos ajuda a entender como o sistema visual humano funciona. Um grande exemplo é a ilusão “Dr. Angry and Mr. Smile” construída pelos pesquisadores Philippe G. Schyns, da Universidade de Glasgow, Escócia, e Aude Oliva, do Instituto de Tecnologia de Massachusetts.

Observe as duas faces das imagens abaixo. O rosto da direita apresenta uma mulher com semblante calmo e à esquerda podemos observar um homem zangado. Agora se distancie cerca de 3 metros da imagem e veja o resultado. As imagens mudam de expressão: a da direita sorri e a da esquerda está com uma feição calma. Como isso acontece? Para desvendar isso teremos que saber como elas foram construídas e ter noção de alguns conceitos físicos.

Fig. 1: Ilusão de mudança de expressão emocional em função da distância do observador. Se afaste alguns metros para ver a alteração do semblante (modificado de Schins e Oliva, 1999).

Toda energia eletromagnética de uma cena visual complexa que chega à retina carrega uma série de informações diferentes. Entre elas está a análise das freqüências espaciais, ou seja, o número de variações de luminância em determinado espaço. Uma imagem normal contém um padrão complexo de intensidades de luz, ou altas variações das freqüências espaciais, contendo desde freqüências muito baixas a altas. Padrões de altas freqüências consistem em elementos finos e detalhes. Já os padrões de baixa freqüência compõem elementos largos e grosseiros.

Fig. 2: Ilustração didática do conceito de freqüência espacial. Retirado de http://webvision.med.utah.edu/imageswv/KallSpat22.jpg
Por meio de uma técnica matemática, a Transformada de Fourier, podemos tomar a distribuição complexa da luz que abrange a cena visual, analisando-a em componentes senoidais simples e trabalhar a imagem em seu domínio de freqüência. A partir disso, podemos utilizar filtros: remover ou preservar seletivamente faixas de freqüências espaciais. Quando removemos as altas freqüências, ou seja, os contornos finos e detalhes de borda, estamos utilizando um filtro passa-baixa, e obtemos uma imagem embaçada. Já quando excluímos as baixas freqüências do espectro visual, estamos utilizando um filtro passa-alta, e obtemos uma imagem com contornos delicados sem variações de larga escala.

As freqüências espaciais altas são melhor percebidas à uma distância curta entre o observador e o objeto. Isso acontece porque elas são transmitidas por células retinianas ganglionares P (do latim parvum, pequeno), que possuem campos receptivos pequenos que, por sua vez, reagem a detalhes minuciosos. As baixas freqüências, ao contrário, são vistas mais a uma maior distância, pois estimulam células retinianas ganglionares M (do latim magnum, grande) que possuem campos receptivos grandes, o que as tornam praticamente incapazes de fazer discriminações finas.
               
A ilusão apresentada acima ao ser construída se valeu de uma técnica de processamento digital de imagens, o morphing. Por meio dele duas imagens são sobrepostas de maneira a formar somente uma imagem híbrida. A imagem à direita é composta por uma face neutra em passa-alta (altas freqüências) e outra sorrindo em passa-baixa (baixas freqüências), e da esquerda uma face zangada em passa-alta e uma face neutra em passa-baixa. Como as freqüências espaciais são captadas por diferentes vias neurais em função da distância, nós vemos a transformação das expressões emocionais nas faces ao nos distanciarmos delas.

A idéia trazida pelas imagens híbridas não é nova. Por década artistas vêm criando trabalhos que, dependendo de como são vistos, parecem diferentes, como a pintura de Salvador Dali, Mercado de escravos com o busto evanescente de Voltaire, pintada em 1940. Mais recentemente, os pesquisadores Aude Oliva e Antonio Torralba, do Instituto de Tecnologia de Massachusetts, disponibilizaram na rede um site com uma galeria de imagens híbridas de freqüências altas x baixas (http://cvcl.mit.edu/hybridimage.htm). Abaixo uma das ilusões construídas por estes pesquisadores.

Fig. 3: Marylin-Einstein; Albert Einstein em altas freqüências e Marylin Monroe em baixas freqüências: se afaste alguns metros para ver a alteração (Aude Oliva, MIT, 2007).


Quer baixar o texto? Clique aqui.
Rui de Moraes Júnior

Para saber mais:
  • Schyns, G. P., & Oliva, A. (1999). Dr. Angry and Mr. Smile: when categorization flexibly modifies the perception of faces in rapid visual presentations. Cognition, 69, 243-265.
  • Oliva, A., Torralba, A., & Schyns, P. G. (2006). Hybrid Images. ACM Transactions on Graphics, ACM Siggraph, 25-3, 527-530.


2 comentários:

  1. Parabéns pelo post, o assunto é muito interessante. Quando se fala em luz visível as frequências envolvidas são sempre elevadas, da ordem de THz (tera Hertz), o que é uma ordem de grandeza considerável. Sendo assim, o que pode ser entendido como altas e baixas frequencias, como dito no texto ? Bom trabalho, grande abraço.

    ResponderExcluir
  2. Respondendo a sua questão, Hertz é a unidade adotada pelo Sistema Internacional de Unidades para indicar o número de ocorrências de um evento em determinado tempo. Mas quando falamos em freqüência espacial não estamos interessados no tempo em que ocorre o evento, e sim na longitude em uma dada direção. Para isso o Sistema internacional utiliza a unidade ciclos por metro. Como nessa área trabalhamos com estímulos muito menores que 1 m, é comum a notação ciclos/cm ou ciclos/imagem na literatura específica.

    Mas o que realmente importa quando se trata de percepção visual é o tamanho da imagem formada na retina. Logo a medida fundamental é ciclos/grau de ângulo visual, uma medida relativa que leva em consideração a distância da pessoa em relação ao objeto percebido. Os cortes dos filtros passa-baixa e passa-alta da ilusão “Dr. Angry and Mr. Smile” correspondem a freqüências espaciais abaixo de 8 ciclos/imagem e acima de 24 ciclos/imagem, respectivamente. A largura do estímulo dividido pela distância do observador em relação ao estímulo, dá a tangente do grau do ângulo visual do observador, daí podemos fazer a conversão em graus/ângulo via regra de 3.

    Espero ter ajudado e obrigado pelo comentário.

    ResponderExcluir

Nossos comentário são moderados apenas para evitar conteúdo ofensivo. Todas críticas boas ou ruins são bem-vindas.