Sobre o controlo do árbitro sobre as imagens que visiona, direi que o controlo direto, a manipulação interativa das imagens permitiria ao árbitro uma muito maior cognição do que está a ver. Falo de poder selecionar entre diferentes ângulos, e principalmente de poder andar para a frente e para trás, acelerando e desacelerando as imagens, podendo sincronizar o seu modelo mental com o modelo apresentado nas imagens. Sei bem que isto seria pesado para o mesmo. Estar no meio de um jogo, num modelo de jogos em que perder 2 minutos cria grande tensão, até porque nem sequer existe o hábito destas paragens, e exigir ao árbitro que procure as melhores imagens seria tremendo. Além de que reconheço que a FIFA não se poupou ao investimento, o VAR é constituído por 4 pessoas de reconhecidas competências que visualizam ângulos específicos das mais de 30 câmaras disponíveis, suportados ainda por mais 4 pessoas que visualizam as restantes câmaras, e por isso claramente serão que está melhor posicionado para fazer recomendações ao árbitro. Mas se assim fosse realmente o árbitro não precisaria de ver as imagens, e a verdade é que tem precisado. Tem precisado porque as imagens estão longe de ser claras, porque um fora de jogo é muito diferente de uma bola na mão vs. mão na bola.
Câmaras no estádio
Porque neste último exemplo, o árbitro não pode só olhar para a mão, tem de olhar para toda a linguagem corporal, para a distância a que a bola está, a velocidade e intensidade, para poder compreender o que está a ver. Não basta ver uma bola numa mão, não basta ver um cotovelo junto à cara de um jogador, é preciso analisar o todo. E aqui começam a surgir problemas, porque os árbitros do VAR estão mais focados na exatidão do posicionamento dos elementos, cabendo ao árbitro a decisão final. Ora se é este que toma a decisão concreta, então ele tem de poder aceder às imagens, ele tem de poder controlar o feed de vídeo, de outro modo será guiado apenas pelo que outros à distância de centenas ou milhares de kilómetros (no caso do Mundial a central do VAR está em Moscovo) dirão e que viram apenas a realidade através de um vídeo.
Árbitro pode apenas ver o que o VAR decide mostrar, não pode manipular as imagens. Provavelmente pode pedir outros ângulos, mas isso está longe de corresponder ao verdadeiro exercício manipulativo das imagens.
Sobre a tecnologia vídeo. O vídeo é excelente, altamente realista, quase tão real como a realidade, não é por acaso que os árbitros do VAR vêem o jogo apenas através de vídeo, nenhum deles acede ao campo, estão longe e fechados numa sala, e conseguem ver quase o mesmo que o árbitro no meio do campo. Conseguem porque possuem mais de 30 olhos no terreno, câmaras de alta definição entre outras. Ora o problema é que o vídeo contém apenas 2 dimensões, o que é manifestamente insuficiente para o ajuizar de um mundo que acontece em 3 dimensões, mais ainda quando temos vários jogadores sobrepostos no caminho dos ângulos das câmaras. Por isso parece-me mais do que evidente que a FIFA já deveria ter começado a investir em sistemas de reconstrução 3D, sistemas capazes de capturar as várias imagens vídeo do campo, com a ajuda de sensores e marcadores, que lhe permitissem recriar em tempo real modelos dos jogadores nas posições em questão. O que uma reconstrução 3D de cena permitiria seria a manipulação de uma câmara virtual que rodasse a toda a volta da bola ou dos jogadores, sem qualquer obstrução de visão como acontece no vídeo. Isto permitiria ver com total exatidão a posição das bolas, dos braços, dos pés, etc. Não que fosse o garante último, tendo em conta a complexidade do que muitas das vezes está em análise, nunca existirão sistemas perfeitos, mas garantiria muito maior proximidade ao centro da ação.
Numa cena 3d é possível rodar a câmara virtual para qualquer posição em 360º, aproximando ou distanciado se houver necessidade.
Atualização 16.7.2018:
Dias antes de eu publicar este texto, era publicado no Fast Company um texto que dava conta das atuais possibilidades de reconstrução 3D que vale a pena ler para se perceber melhor o alcance do que digo acima.