Como os cientistas usam webcams para rastrear o olhar humano
Autores
Alina Enikeeva, Anatolii Evdokimov, Arryn Robbins, Paean Luby
Jovens revisores

Resumo
O rastreamento ocular é uma tecnologia que pode registrar os movimentos oculares das pessoas e informar aos cientistas o que elas estão vendo, nas telas ou no mundo. Os cientistas usam o rastreamento ocular para entender o que as pessoas notam ou lembram; pesquisadores de marketing que criam anúncios usam o rastreamento ocular para ver que tipo de anúncio ou produto captura a atenção das pessoas; e designers de videogames usam o rastreamento ocular para ver quais etapas de um jogo parecem confusas para os jogadores, a fim de que os designers possam corrigi-las. O uso dos equipamentos de rastreamento ocular pode ser caro e exigir bastante tempo. Será, então, que existe outra maneira para registrar os movimentos oculares sem comprar um rastreador ocular? Existe! Cientistas da computação podem usar um método baseado em computador chamado aprendizado de máquina para transformar uma webcam comum em um rastreador ocular. Isso pode ser feito até usando-se celulares! Neste artigo, você aprenderá como os rastreadores oculares funcionam e as vantagens e desvantagens de usar webcams para rastrear os olhos.
Os olhos são janelas para a mente
Você já conversou com um amigo e percebeu que, de repente, os olhos dele não estavam mais em você, mas sim focavam atrás de você? O que você fez? Provavelmente, você se virou e tentou enxergar o que seu amigo observava. Isso mostra que os movimentos dos olhos nos contam aonde uma pessoa coloca sua atenção.
Cientistas medem os movimentos dos olhos para entender as lembranças que as pessoas possuem, aquilo em que prestam atenção, como elas leem e até para rastrear certos distúrbios. Um rastreador ocular é uma tecnologia que pode registrar os movimentos dos olhos das pessoas e informar aos cientistas para o que os participantes estão olhando, e por quanto tempo estão olhando. É uma câmera que tira fotos dos olhos dos olhos de uma pessoa [1]. Os rastreadores oculares estudam informações dessas imagens (como o formato das pupilas) para identificar para onde uma pessoa está olhando. Essas câmeras tiram centenas ou até milhares de fotos por segundo! O grande número de imagens dos olhos permite que os rastreadores oculares sejam muito precisos ao identificar onde e quando uma pessoa olha para algo.
Se um rastreador ocular estivesse registrando seus movimentos oculares enquanto você assistia a um vídeo, um cientista poderia usar seus movimentos oculares para identificar em que você estava prestando atenção na tela, e por quanto tempo. Por exemplo, um rastreador ocular poderia detectar as suas fixações, que são os momentos nos quais os olhos parecem ter parado para olhar para algo. Fixações mais longas (como quando você olha fixamente para algo) podem significar que você está realmente focado em um personagem no vídeo, enquanto fixações mais curtas e frequentes podem significar que você está distraído por outros personagens ou objetos, ou que está com dificuldades para entender o que está acontecendo na tela.
O rastreador também pode identificar que seus olhos seguem o movimento dos personagens sem que você perceba (Figura 1). Os movimentos amplos e abrangentes que seus olhos fazem entre as fixações são chamados de sacadas.

Uma trajetória de escaneamento refere-se ao caminho que os olhos percorrem quando uma pessoa olha para algo. Os círculos grandes representam as fixações, onde os olhos da pessoa parecem parar, e as linhas mostram os movimentos sacádicos que os olhos da pessoa realizam entre as fixações. Para quais partes deste vídeo a pessoa olhou?
Ensinando os computadores a prever a localização do olhar
No laboratório, os cientistas usam equipamentos especiais de rastreamento ocular, extremamente eficazes em descobrir para onde os olhos de uma pessoa estão olhando em uma tela, o que é chamado de localização do olhar (Figura 2).
Embora os rastreadores oculares sejam excelentes ferramentas, eles apresentam alguns desafios. Primeiro, os equipamentos de rastreamento ocular podem ser muito caros. Por isso, nem todos os cientistas que desejam pesquisar os movimentos oculares podem comprá-los para seu laboratório. Além disso, os rastreadores oculares só conseguem medir os movimentos oculares presencialmente, e de uma pessoa a cada vez. Isso significa que pode demorar muito tempo para conduzir pesquisas que envolvem muitas pessoas. Pode ser um desafio encontrar pessoas para participar de pesquisas quando elas precisam ir a um laboratório para colaborar.

O sistema de rastreamento ocular utiliza muitos equipamentos técnicos e exige que o participante mantenha a cabeça imóvel em um apoio para o queixo. Todos esses equipamentos tornam o sistema muito preciso para identificar para onde o participante está olhando na tela do computador. (B) Uma pessoa trabalha em um laptop com uma webcam integrada. A webcam não requer tantos equipamentos e o participante pode sentar-se confortavelmente e ter liberdade para movimentar a cabeça.
Esses desafios no uso de equipamentos de rastreamento ocular podem ser superados com o uso de webcams para rastrear os olhos. As webcams estão presentes na maioria dos dispositivos pessoais comuns (como celulares ou laptops), facilitando o contato dos cientistas com um grupo diversificado de pessoas, sem que os participantes precisem ir a um laboratório. As webcams também são muito mais baratas do que equipamentos de rastreamento ocular. Os cientistas poderiam usar webcams para coletar dados de movimento ocular remotamente, o que poderia economizar tempo e dinheiro [2].
As webcams não foram projetadas para rastrear os olhos, então como os cientistas conseguem obter dados de movimento ocular a partir delas? Existem vários jeitos de usar webcams como rastreadores oculares, mas uma maneira popular é por meio do aprendizado de máquina, uma forma de analisar dados que permite que os computadores aprendam com a experiência [3].
O aprendizado de máquina é uma maneira para que os computadores usem dados (como imagens ou números), além de um conjunto de cálculos matemáticos, para aprender com a experiência e encontrar padrões no mundo. Por meio do aprendizado de máquina, os computadores podem aprender algo partindo de um grande número de fotos de rostos de pessoas.
Quando brinca com seus amigos, você espia para ver para onde eles estão olhando, seja para um brinquedo legal ou um lanche gostoso? Você usa pistas, como os movimentos dos seus olhos, o modo com eles viram a cabeça, ou a proximidade de um objeto, para descobrir para onde seus amigos estão olhando.
Os computadores podem fazer algo semelhante. Eles olham para milhares de fotos de rostos de pessoas e tentam encontrar padrões nessas fotos, assim como seu cérebro encontra padrões nas ações de seus amigos. Os computadores usam esses padrões para adivinhar para onde alguém pode estar olhando quando olha para um rosto, por exemplo.
Os cientistas aprimoraram o aprendizado de máquina para fazer previsões mais precisas de onde uma pessoa está olhando usando outras informações úteis, como pontos de referência dos olhos e do rosto que representam bordas em um rosto (Figura 3); informações de profundidade, como a distância que uma pessoa está da webcam; e até mesmo informações da cena na tela [4].

Os pontinhos (pontos de referência) no rosto desta mulher estão em bordas e cantos importantes do rosto, como o maxilar, a boca, as sobrancelhas e, principalmente, os olhos. O aprendizado de máquina pode usar pontos de referência para fazer melhores previsões da localização do olhar a partir de imagens de webcam como estas.
Desafios do rastreamento ocular por webcam
Embora o rastreamento ocular por webcam possa ajudar cientistas a tirar conclusões sobre a localização do olhar das pessoas por um custo baixo, ele está longe de ser perfeito. Ele não é muito preciso para identificar para onde os olhos estão realmente olhando. Se comparado a um rastreador ocular de laboratório, também não é muito bom em separar os tipos de movimentos oculares.
Isso ocorre porque as fotos tiradas por uma webcam são de qualidade inferior às tiradas por um rastreador de laboratório. Além disso, as taxas de quadros (a rapidez com que as câmeras conseguem tirar fotos) são muito diferentes. Uma webcam pode tirar cerca de 30 fotos por segundo. Embora isso possa parecer muito, rastreadores oculares de laboratório podem tirar centenas ou até milhares de imagens por segundo! Tirar menos fotos por segundo significa que a webcam não consegue capturar certos tipos de movimentos oculares que ocorrem muito rapidamente.
Os cientistas podem usar webcams para rastrear o padrão geral dos movimentos oculares, mas as medições não são exatas para movimentos oculares mais sutis. Quando alguém deseja rastrear os movimentos oculares de pessoas e cenas grandes em um vídeo ou anúncio, a baixa precisão pode não ser um grande problema. No entanto, quando os cientistas estão realizando experimentos, eles precisam de maior precisão para rastrear movimentos oculares pequenos ou rápidos, como aqueles que ocorrem durante a leitura ou a busca por pequenos objetos em uma cena.
Por exemplo, digamos que você esteja focado em uma pessoa falando em um vídeo. Depois, você move o olhar para ver um animal se movendo ao fundo logo atrás da pessoa e, em seguida, volta a olhar para a pessoa que está falando. Essas pequenas mudanças no olhar podem não ser detectadas no rastreamento ocular por webcam.
Além disso, pense em onde e como você normalmente assiste a vídeos, navega na internet ou usa uma câmera. Você está no escuro e, às vezes, se movimenta? Como as webcams têm qualidade de imagem inferior, se comparadas aos rastreadores oculares de laboratório, é ideal que as pessoas estejam em salas com boa iluminação e sentadas enquanto rastreiam. Nem sempre é possível garantir que as pessoas estejam nestas condições enquanto os pesquisadores coletam imagens da webcam remotamente.
Olhando para frente: o futuro do rastreamento ocular
O rastreamento ocular por webcam pode ser uma abordagem econômica e que poupa tempo para pesquisadores que desejam estudar os movimentos oculares. No entanto, existem limitações para o seu uso, pois as webcams são menos precisas do que os rastreadores oculares de laboratório para identificar para onde alguém está olhando.
Cientistas estão trabalhando para aprimorar os métodos de rastreamento ocular por webcam, como o uso de aprendizado de máquina, para que possam identificar os movimentos oculares com mais precisão usando imagens de webcams. Este trabalho é importante porque ajuda a tornar a tecnologia de rastreamento ocular fácil de usar para todos, permitindo que os cientistas aprendam mais sobre como vemos e interagimos com o mundo ao nosso redor, mesmo no conforto de nossas casas.
Glossário
Rastreador Ocular: Tecnologia que pode registrar os movimentos oculares das pessoas e informar aos cientistas o que os participantes estão olhando e por quanto tempo.
Fixação: O tempo entre grandes movimentos oculares, quando os olhos parecem ter parado para olhar para algo.
Sacada: Um movimento largo e amplo que seus olhos fazem entre fixações.
Aprendizado de Máquina: Uma forma de analisar dados que permite que os computadores aprendam com a experiência.
Pontos de Referência: Marcas que ajudam um computador a entender onde as bordas de partes importantes de um rosto estão em uma imagem, como os cantos dos olhos ou o queixo.
Precisão: Exatidão, ou o grau em que o sistema de rastreamento está correto em dizer para onde alguém está olhando.
Referências
[1] Robbins, A., e Hout, M. C. 2015. Look into my eyes. Sci. Am. Mind 26:54–61. doi: 10.1038/scientificamericanmind0115-54
[2] Papoutsaki, A., Laskey, J., e Huang, J. 2017. “Searchgazer: Webcam eye tracking for remote studies of web search”, in Proceedings of the 2017 Conference on Conference Human Information Interaction and Retrieval (New York, NY: ACM), 17–26.
[3] Valliappan, N., Dai, N., Steinberg, E., He, J., Rogers, K., Ramachandran, V., et al. 2020. Accelerating eye movement research via accurate and affordable smartphone eye tracking. Nat. Commun. 11:4553. doi: 10.1038/s41467-020-18360-5
[4] Park, S., Aksan, E., Zhang, X., e Hilliges, O. 2020. “Towards end-to-end video-based eye-tracking”, in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XII 16 (Berlin: Springer International Publishing), 747–63.
Citação
Evdokimov A, Enikeeva A, Luby P e Robbins A (2024) How Scientists Use Webcams to Track Human Gaze. Front. Young Minds. 12:1259404. doi: 10.3389/frym.2024.1259404
Este é um artigo de acesso aberto distribuído sob os termos da Creative Commons Attribution License (CC BY). O uso, distribuição ou reprodução em outros fóruns é permitido, desde que o(s) autor(es) original(is) e o(s) proprietário(s) dos direitos autorais sejam creditados e que a publicação original nesta revista seja citada, de acordo com a prática acadêmica aceita. Não é permitido nenhum uso, distribuição ou reprodução que não esteja em conformidade com estes termos.
Encontrou alguma informação errada neste texto?
Entre em contato conosco pelo e-mail:
parajovens@unesp.br