Lecturas: Educación Física y Deportes
http://www.efdeportes.com/ · revista digital

ANÁLISE DO JOGO EM BASQUETEBOL:
DA PRÉ-HISTÓRIA AO DATA MINING

António Jaime Sampaio (Portugal)
ajaime@utad.pt

Gabinete de Basquetebol - UTAD


O estudo dos Jogos Desportivos Colectivos é enquadrado em estruturas muito próprias que nos permitem analisar e identificar os diferentes elementos comuns que caracterizam a sistematização e organização do conhecimento (Oliveira, 1994). O basquetebol como actividade desportiva evoluída e em permanente renovação, não tem fugido a esta regra. De um modo muito particular, a análise do jogo, entendida como o estudo do jogo a partir da observação da actividade dos jogadores e das equipas, tem vindo ao longo dos tempos, a constituir um argumento de crescente importância nos processos de preparação desportiva (Garganta, 1996). Tal facto é traduzido pela quantidade e qualidade de informação disponibilizada para:

Estes propósitos têm sido atingidos de uma forma gradual e muito consistente. De facto, as estruturas do jogo exigiram, de imediato, métodos e meios de análise capazes de acompanhar a sua evolução. Progressivamente, os métodos de observação directa foram substituídos por poderosos sistemas informáticos capazes de recolher e tratar os dados em tempo real. Contudo, a evolução deste processo decorreu em várias fases, que importa caracterizar:


1ª Fase - o início…
O registo manual através de métodos de observação directa constituiu-se como a principal característica desta fase.

A observação directa ao condicionar a quantidade de indicadores a recolher, "obrigava" os treinadores a pré-seleccionarem o conjunto de indicadores do jogo a observar e registar. Por exemplo, no Basquetebol, a sugestão de observação centrava-se habitualmente, nos lançamentos e nos ressaltos, sem que para isso existisse suporte objectivo. Ou seja, nessa altura não estavam disponíveis estudos que evidenciassem a importância exclusiva desses indicadores de eficácia no desfecho final dos jogos.

O tratamento desta informação era feito à posteriori, e naturalmente, por insuficiência de meios, absorvia bastante tempo aos treinadores. Reforçando esta ideia, Sanderson & Way (1977) estimaram em cerca de 40 horas o tempo necessário para analisar um simples jogo de Squash.


2ª Fase - o passado
Esta 2ª fase de evolução caracteriza-se pela disponibilidade dos métodos de observação indirecta. De facto, o surgimento dos vídeo-gravadores proporcionou um enorme incremento nas recolhas de dados, que passaram a ser mais exaustivas, mais fiáveis (Hughes, 1996) e a estarem permanentemente disponíveis.

No entanto, a capacidade de tratamento desta informação permanecia ainda muito reduzida, já que ainda estava longe o tempo da revolução informática.


3ª Fase - a revolução informática
Surge uma grande revolução na informática. Os computadores tornam-se cada vez mais poderosos, e ao mesmo tempo mais acessíveis. Os softwares de aplicativos acompanharam esta evolução, consubstanciada em packages estatísticos cada vez mais rápidos e sofisticados.

Todavia, os sistemas de observação e registo, perdem eficácia pelo facto da informação por eles gerada constituir material disperso e retalhado, afigurando-se confuso. Isto significa que, não obstante o recurso a meios sofisticados, a proliferação de bases de dados não garantia, por si só, o acesso a informação útil. A definição de referenciais conceptuais delimitadores das categorias e indicadores a seleccionar, tornava-se imprescindível (Garganta, 1996).

O ponto mais marcante desta fase prende-se com o facto da opinião dos treinadores ter deixado de ser utilizada como elemento referencial. As análises a realizar pressupõem que não se têm certezas nenhumas sobre o jogo e que será o tratamento dos dados a fornecer-nos todo o conhecimento (Marques, 1990).

Nesta fase surgem os primeiros estudos, recorrentes a grandes amostras, que relacionam acções técnico-tácticas do jogo com a vitórias ou derrotas (Van Gundy, 1978; Pim, 1981).


4ª fase - o presente
Todo o processo de recolha e tratamento de dados passou a ser dominado pelos meios informáticos. O software passou a ser elaborado de acordo com os constrangimentos que o jogo apresenta, complementando assim os packages estatísticos tradicionais.

Contudo, estes sistemas sofisticados de análise do jogo, têm sido utilizados quase exclusivamente como auxiliares dos treinadores em equipas profissionais. Infelizmente, a informação por eles gerada não está disponível na bibliografia.

Decorrente desta evolução, as recolhas e o tratamento dos dados passaram a ser realizados em tempo real. As vantagens que daqui advêm são evidentes, salientando-se o facto da possibilidade dos treinadores poderem intervir no jogo em tempo real. Por outro lado, a qualidade e a quantidade de informação gerada permite a construção de bancos de dados cada vez mais poderosos, a partir dos quais vai sendo possível perspectivar múltiplos contornos da performance no jogo.

Mais recentemente, os interfaces mais sofisticados têm permitido a acoplação dos videogravadores aos microcomputadores e deste modo, torna-se possível, com custos cada vez mais reduzidos, o acesso à informação não só quantitativa mas também gráfica. Refira-se neste particular o sistema de análise desenvolvido para o futebol por Franks & McGarry (1996).

Nesta perspectiva mais actual, Hughes (1986) apresenta 4 grandes áreas para a análise quantitativa de dados: a análise de tempo e movimento; a avaliação táctica; a avaliação técnica e a compilação estatística dos dados. A informação derivada das avaliações anteriormente referidas, serve, segundo Franks et al. (1983), os seguintes propósitos: (i) proporcionar informação para o treinador intervir com feedbacks imediatos relativamente à prestação individual e colectiva; (ii) criar bancos de dados de acesso em tempo real; (iii) visualizar automaticamente a informação dos bancos de dados através de interfaces com os videogravadores e (iv) detectar pontos fortes e fracos na preparação desportiva das equipas.


5ª fase - o futuro
Uma das vertentes do desenvolvimento do Basquetebol é, sem qualquer duvida, o rápido acesso a todo o tipo de informação existente sobre uma imensidão inimaginável de actividades relacionadas, directa ou indirectamente, com a sua prática (Turcoliver, 1996). Já em 1990 Marques referiu que esta etapa consistirá na criação de sistemas informáticos inteligentes que:

Nesta abrangência futurista, é muito provável que os processos de recolha de dados possam vir a ser melhorados com o aperfeiçoamento dos sistemas de voice-over (Hughes, 1996). Tal facto poderá permitir que qualquer pessoa, mesmo sem muita experiência, possa realizar recolhas de dados válidas e fiáveis.

Por outro lado, o estado da arte parece reflectir o progresso nos processos de digitalização em vídeo associado ao armazenamento em grandes bancos de dados. Esta evolução irá permitir que os treinadores gastem menos tempo com os computadores e os vídeo-gravadores (Leonard, 1995), consequentemente o treino passará a ser muito mais válido e objectivo uma vez que se conhecem, com uma precisão mais elevada, os pontos fracos a melhorar.

Actualmente, vive-se um processo de transformação gradual. De facto, as facilidades que surgiram com os progressos tecnológicos na Informática aliado aos sistemas electrónicos de aquisição de dados facilitaram o aparecimento natural de grandes bases de dados. A utilização de tecnologias mais avançadas, já disponíveis em grandes industrias e na área financeira, como meio de analisar grandes quantidades de informação é uma das mais recentes evoluções (Carvalho, 1998). A ideia concreta da dimensão dos registos e variáveis inclusas nestes poderosos bancos de dados pode ser melhor entendida através dos exemplos apresentados por Hand (1998):

Entramos então na era dos "giga" e dos "terabytes" de dados, que alguns autores até designaram de "terrorbytes", devido às extremas dificuldades que se sentiram (e sentem) no provimento de algum sentido à informação recolhida. De facto, reunimos nas mais variadas áreas do conhecimento, bancos de dados tão grandes que se torna difícil sem qualquer auxilio, e mesmo com o auxilio dos métodos estatísticos disponíveis, responder a qualquer questão por muito simples que seja. O ser humano não está preparado para lidar com grandes volumes de dados e/ou espaços multidimensionais (Fayyad, 1998).

Uma análise actual aos sistemas de observação e registo leva-nos a constatar que estes perdem eficácia pelo facto da informação gerada se tornar demasiado confusa (Gerish & Reichelt, 1993). Independentemente da maior sofisticação dos meios tecnológicos disponíveis, a proliferação de bases de dados não garante, por si só, o acesso a informação útil (Garganta, 1998). Perante o aparecimento destes bancos de dados e a certeza que aí se encontra informação oculta e preciosa, o passo seguinte foi direccionado para a construção de técnicas específicas de análise. O Data Mining surgiu como solução a este problema.


Data Mining
O interesse da comunidade científica pelo Data Mining tem crescido abruptamente. Em 1997, o 3º Congresso Internacional de Knowledge Discovery and Data Mining já contou com a participação de 700 pessoas. Dando resposta a esta rápida evolução, de imediato surgiu a 1ª publicação periódica - Data Mining and Knowledge Discovery - nos Estados Unidos da America, sob a direcção do Professor Usama Fayyad, um dos pioneiros desta área.

Em termos gerais, o Data Mining é uma técnica que congrega 4 áreas de estudo fundamentais: a estatística, as bases de dados, o reconhecimento de padrões e a inteligência artificial (Hand, 1998).

A sua principal utilidade reside na capacidade de reconhecer padrões e/ou modelos de comportamento através da análise de grandes bancos de dados integrados (informação numérica, imagens, áudio, texto,...). Este processo ocorre através da modelação das estruturas que provocam padrões de comportamento constantes e provavelmente replicáveis (Fayad, 1998) e recorre a técnicas estatísticas integradas como: Análise de Clusters, Regressões, Métodos Gerais de Classificação e Redes Bayesianas (Hand, 1998).

Em termos estruturais os sistemas de Data Mining baseiam-se numa nova linguagem de programação. O "tradicional" SQL (Structured Query Language) foi abandonado devido às suas limitações de interactividade e fraco poder para tomadas de decisões autónomas. Surgiu então o OLAP (On-Line Analytical Process), que apresenta segundo as necessidades do programador várias ramificações (MOLAP ? OLAP multidimensional, ROLAP ? OLAP relacional, HOLAP ? OLAP híbrido, DOLAP ? OLAP para Desktops).

O enquadramento global desta técnica de análise não tem sido muito pacífico. Enquanto que alguns autores integram o Data Mining na estatística (para ref. ver Hand, 1998), outros autores (para ref. ver Fayyad, 1998) englobam esta técnica num processo muito mais abrangente quando o incluem numa das etapas do processo de Pesquisa de Conhecimento em Bases de Dados (do inglês Knowledge Discovery in Databases). Segundo Fayyad (1998), este processo é constituído pelas seguintes etapas: (i) selecção e depuração dos dados; (ii) transformação dos dados; (iii) Data Mining; (iv) Interpretação e avaliação e (v) Integração final.

Enquanto que a estatística actual se centra sobretudo na análise de dados primária, i.e., os dados são recolhidos com a intenção de dar resposta a um problema, a preocupação central das técnicas de Data Mining centra-se na análise de dados secundárias, i.e., as bases de dados são construídas no intuito de à posteriori se identificarem padrões de comportamento até então desconhecidos e que se apresentem de grande utilidade para os investigadores. De certo modo, não existe um modelo teórico de suporte à investigação e podemos afirmar que os investigadores não sabem bem o que procuram. Callaghan (1998) refere-se a este facto como "fishing the data without an hipoteshis to verify".

Apesar dos evidentes pontos fortes desta técnica de análise, os especialistas desta área têm-se debatido com alguns problemas importantes associados ao tamanho das bases de dados (Hand, 1998) e que naturalmente colocam em causa todo este novo processo. Destacamos neste âmbito os cuidados:

  1. na contaminação dos registos, as análises exploratórias de dados devem ser repensadas. Por exemplo, se excluirmos um outlier de uma amostra de 1000 registos (que representa 0.001% e que actualmente parece pacífico), quando nos reportamos a amostras de 1 bilião de registos, se excluir-mos os mesmos 0,001%, estaremos a excluir 1 milhão!
  2. no processamento de dados em tempo real, o crescimento ininterrupto dos dados provoca alterações constantes nas interpretações a realizar.
  3. nas relações esporádicas, a probabilidade de identificarmos associações inter/intra-registos e inter/intra-variáveis devidas ao acaso vai ser muito maior.
O software disponível nesta área tem potencialidades de análise gerais e específicas. Construído por Hoschka & Klosgen em 1991 o Explora, é um sistema de características gerais, a informação a extrair e as características da base de dados podem ser ajustadas mediante as necessidades dos utilizadores. Dando resposta a problemas de áreas mais específicas surgiram o IDEA (Interactive Data Exploration and Analysis System), construído para a análise de mercado da empresa norte-americana AT&T (Fayyad, 1998; Hand, 1998) e o Advanced Scout, construído para a NBA (Bhandari et al., 1997)


Advanced Scout
O Advanced Scout foi construído em 1997 pelo cientista norte-americano Inderpal Bhandari e seus colaboradores, pertencentes ao IBM's Watson Research Center.

Actualmente o programa é usado sistematicamente por 20 equipas da NBA e pelo próprio departamento de análise da liga em parceria com a IBM e algumas cadeias de televisão (Callaghan, 1998).

De um modo simplista, o programa tem como objectivo ajudar os treinadores a mais facilmente analisarem e interpretarem a informação dos jogos, podendo funcionar de duas formas distintas: (i) respondendo a questões previamente definidas ou (ii) detectando padrões de comportamento (Carvalho, 1998). Bob Salmi, treinador das equipa profissional dos Mavericks de Dallas, expressou-se acerca da utilidade destes sistemas de análise do seguinte modo:

"There are patterns in all your data. As coaches, we have ideas about why we win or lose, based on player performance and statistics. This technology allows us to get quick answers to questions and automatically identify patterns that may mean the difference between winning and losing".
Torna-se então relativamente fácil perceber quais os sistemas ofensivos ou defensivos mais eficazes, com quais jogadores e em que circunstâncias, sob uma perspectiva transversal ou longitudinal.

Como já foi referido anteriormente, estes sistemas são capazes de integrar informação de todos os tipos, facto que se torna imprescindível no caso do Basquetebol, uma vez que além de se ter um conhecimento mais válido acerca dos pontos fortes e fracos de ambas as equipas, podemos visualizar automaticamente e em tempo real toda a informação pretendida.


Bibliografia

Lecturas: Educación Física y Deportes · http://www.efdeportes.com/  
revista digital
· Año 4 · Nº 15 | Buenos Aires, 08/99