|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
.2008 - Volumen 1, Número 1
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Uso de la Teoría de Respuesta al Ítem (TRI) para Analizar la Equidad del Processo de Evaluación del Aprendizaje Docente |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wagner Bandeira Andriola | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Já que os fins educativos consistem, essencialmente, em determinar as mudanças qualitativas por que passam os aprendizes, em termos de aquisição de aprendizagens, podemos garantir, portanto, que a avaliação da aprendizagem é o processo de determinar em que medida ou grau se conseguem tais mudanças, possibilitando, assim, um juízo de valor acerca da qualidade dessas supostas mudanças. Nesta definição, há duas idéias básicas:
Como em toda e qualquer atividade científica, porém, a avaliação do rendimento possui vulnerabilidades ou limitações, que são descritas a seguir. 1. ORIGEM DOS ESTUDIOS SOBRE O VIÉS DOS TESTES O viés dos instrumentos de medida psicológica e educacional é um tópico que aparece tratado tardiamente, no seio da psicometria moderna (Muñiz, 1994). De acordo com Angoff (1993), seu estudo sistemático se iniciou nos Estados Unidos, no final dos anos 1960, numa época em que estavam em moda os debates sobre direitos civis e desigualdades de oportunidade entre brancos e outras minorias étnicas (Rossi, Freeman e Lipsey, 1999). Os resultados dos processos de avaliação educacional, executados por instituições reconhecidas, tais como o Educational Testing Service (ETS), foram discutidos entre diversos intelectuais, para quem as diferenças de rendimento educativo observadas entre os diversos grupos étnicos e socioeconômicos refletiam, na realidade, disparidades nas oportunidades educacionais e discriminação contra grupos minoritários, tais como negros, hispano-americanos, judeus e árabes. Foi, portanto, a discussão social, alheia em grande parte ao círculo psicométrico especializado, que obrigou os especialistas da área a produzirem outros procedimentos estatísticos, com o objetivo de provar que seus testes ou instrumentos de medida não tinham nenhum tipo de viés (Cole, 1993). Nessa mesma época, os investigadores começaram a preocupar-se com o estudo sistemático das diferenças entre grupos demográficos. Estavam interessados em buscar explicações a respeito das suas verdadeiras causas. Martínez Arias (1997) destaca que a investigação sobre o viés dos itens pode remontar aos estudos realizados por A. Binet, em 1910, a respeito das diferenças de status socioeconômico no rendimento dos sujeitos submetidos a alguns testes desenvolvidos por ele próprio. Os resultados possibilitaram a proposição da hipótese de que o rendimento mais baixo destes sujeitos, em alguns itens, poderia decorrer do efeito do treinamento cultural, em vez de reais diferenças na capacidade mental ou construto latente medido pelo teste. Também W. Stern, o introdutor da expressão quociente intelectual, pode ser considerado como um dos primeiros investigadores da área, visto que ele estudou as diferenças relacionadas com a classe social, na Alemanha (Andriola, 2002). Apesar desses autores pioneiros, o começo da moderna investigação sobre o viés encontra-se nos trabalhos de K. Eells, A. Davis, R. J. Havighurst, V. E. Herrick e R. W. Tyler, realizados na Universidade de Chicago, em 1951. Nesses estudos, os investigadores encontraram variações nos itens, em alguns aspectos muito peculiares, tais como conteúdo e formato, que reduziam ou exageravam as diferenças observadas entre os grupos comparados. Surgiram, assim, os primeiros dados a respeito dos problemas técnicos que possuiam alguns itens dos testes de rendimento, então utilizados na avaliação da aprendizagem. Eram informações sobre os problemas referentes ao uso indevido da linguagem escrita, que possibilitava certa vantagem de um grupo de sujeitos sobre outro, isto é, muitos dos termos empregados nos testes eram mais familiares a alguns grupos específicos de estudantes, tais como os norte-americanos brancos, originários da classe média. Em conseqüência, os sujeitos pertencentes aos grupos minoritários, que não conheciam ou não empregavam cotidianamente esses termos, tinham rendimento mais baixo. Apareceu, então, o interesse pela investigação sistemática pelo funcionamento diferencial do item (DIF). 2. Presença de DIF: fenômeno que se choca com a eqüidade da medida No âmbito da Teoria de Resposta ao Item (TRI), o item não tem DIF, quando a sua curva característica (CCI) é idêntica para os grupos comparados, considerando-se um mesmo nível ou magnitude da variável latente medida (LORD, 1980; MELENBERGH, 1989). Em linguagem matemática podemos dizer que o item não tem DIF com respeito à variável G (grupo) dado Z (nível de q) se, e somente se, F (X I g,z) = F (X I z), onde:
Para visualizar o DIF de um hipotético item, apresentamos, a seguir, a Figura 1. FIGURA 1. REPRESENTAÇÃO DAS CCI’S DE UM SUPOSTO ITEM COM DIF Na Figura 1, observamos que, para uma mesma magnitude de theta (q), a probabilidade de acerto ao item [Pq)] é sempre superior para as mulheres. Isto indica que em níveis iguais de competência na variável medida q não há igualdade na probabilidade de acertar o item. Neste caso, o item está enviesado contra os homens (GR), pois os valores de P(q) para um mesmo nível de q são sempre maiores para as mulheres (GF). Por exemplo, para q = 1,1 temos valores aproximados de P(q) = 0,69 para os homens e P(q) = 0,87 para as mulheres. Como conseqüência de resultados dessa natureza, Douglas, Roussos e Stout (1996) propuseram os conceitosDIF benigno e DIF adverso. No caso do DIF beneficiar o grupo de referencia (GR), isto é, quando TjGR(q) >TjGF(q), caracteriza-se a existência de DIF benigno (ANDRIOLA, 2006). O DIF adverso ocorre no caso do DIF beneficiar ao grupo focal (GF), ou seja, quando TjGR(q) < TjGF(q). No exemplo da Figura 1, temos um caso de DIF adverso. 3. Diferenças entre centros educacionais: controvérsias e dados Nessa mesma época, os estudiosos da área educacional demostraram que as pessimistas conclusões de J. S. Coleman e colaboradores, em 1966, e de C. S. Jencks e colaboradores, em 1972, a respeito da pouca ou nula influência dos centros educacionais sobre os resultados acadêmicos dos estudantes, são totalmente equivocadas (Andriola, 2002). Os dados de estudos executados nos últimos 20 anos permitem-nos anotar: o efeito que um centro educacional tem sobre a aprendizagem dos seus estudantes pode ser identificado e, até certo ponto, medido (OCDE, 1995; Nuttall, Goldstein, Prosser e Rabash, 1989). Ademais, como destaca Orden Hoz (1993), as investigações a respeito das influências dos centros educacionais sobre o rendimento acadêmico têm um papel preponderante em muitos países. Vários estudos foram executados com o objetivo de tentar caracterizar os fatores que diferenciam uns centros educacionais de outros, no que se refere a associação dos mesmos ao rendimento acadêmico dos estudantes (Soares, 2002). Por exemplo, Miles (1974) destacou dez características de um centro educacional são: possuir objetivos claros; ter um bom sistema de comunicação; regras claras de hierarquia; utilização racional dos recursos; coesão entre seus membros; moral elevada de seus membros; preocupação com a inovação; autonomia; adaptação e equilíbrio nas técnicas de resolução de problemas. Estas características têm elevado grau de interdependência e, ademais, definem um marco apropriado de índices indiretos de qualidade, pois são aspectos que, indubitavelmente, condicionam em um sentido ou em outro o funcionamento do centro educacional (De Miguel, 1989). Sammons, Hillman e Mortimore (1998) destacaram onze fatores responsáveis pela alta eficácia de alguns centros educacionais: capacidade de liderança dos diretores; visão e objetivos comuns; ambiente adequado à aprendizagem; ênfase no processo ensino-aprendizagem; preocupação pela qualidade do encino; existência de expectativas positivas elevadas; uso de reforços explícitos; acompanhamento regular do progresso dos alunos; explicitação dos direitos e deveres dos alunos; colaboração lar-centro educacional; e, por fim, preocupação pela qualificação profissional.
Muitas outras investigações sobre as diferenças entre os centros educativos põem ênfase sobre os processos instrutivos relacionados, fundamentalmente, com o contexto de ensino-aprendizagem (Dunkin, 1978; Horsburgh, 1999; Moura Castro, 1999; Rego, 2000, 2001). Nesse âmbito, existem estudos a demonstrar que o modo como os estudantes estejam envolvidos nas atividades educativas é um fator muito importante para explicar suas aprendizagens. De acordo com Alexander e Judy (1988), os estudantes mais envolvidos nas atividades escolares demonstram maior capacidade para organizar e associar as novas informações com as antigas, gerando, assim, outros conhecimentos. Nuthall (1999) destaca o fato de que o conhecimento é resultado da utilização de um conjunto de processos cognitivos reforçados nos âmbitos social, cultural e educativo. No caso do contexto educativo, a dinâmica utilizada na sala de aula é um dos fatores mais determinantes para que o aprendiz adquira esses processos cognitivos. Tobias (1994), Nuthall e Alton-Lee (1995) identificaram quatro fatores primários, que têm grande poder explicativo para as diferenças individuais do rendimento:
Dos 10 aspectos destacados por Miles (1974) e dos 11 enunciados por Sammons, Hillman e Mortimore (1998), alguns têm grande similitude com os fatores primários pinçados por Tobias (1994), Nuthall e Alton-Lee (1995), quais sejam: objetivos claros e compartilhados, boa comunicação entre os membros do centro educativo, coesão, moral elevada e, finalmente, preocupação com a inovação. Os objetivos escolares devem possuir as desejáveis características de serem claros e aceitos pelos membros do centro educativo. Ademais, devem ser alcançáveis com os recursos disponíveis e apropriados para as demandas do contexto. As boas comunicações devem sofrer o mínimo de distorção no percurso que vai do emissor ao destinatário, isto é, as tensões e problemas devem ser rapidamente identificados em virtude do uso de uma boa comunicação. A comunicação tem efeito sobre a coesão, já que este último tem efetiva ligação com o autoconhecimento do centro educativo, em seu conjunto e sobre as partes constituintes. A moral elevada, no âmbito organizativo, está associada à idéia de soma de sentimentos individuais de satisfação, que apóiam os desejos de realizar esforços para alcançar os objetivos planejados. Finalmente, a preocupação com a inovação é a característica desejável de mover-se em direção de novos objetivos e procedimentos. Várias características da escola são fundamentais para lograr que seus alunos alcancem os propósitos educativos que lhes permitam continuar desenvolvendo-se e aprendendo com autonomia. Não obstante, de acordo com Sammons, Hillman e Mortimore (1998), características socioeconômicas, de gênero, etnia e linguagem também exercem influência sobre os resultados acadêmicos. Mortimore et al. (1988) demonstraram que, em termos do progresso estudantil (valor agregado pela instituição educacional), os efeitos da escola são muito mais importantes do que fatores como idade, gênero e classe social. Finalmente, Scheerens (1992), Fuller e Clark (1994) fazem algumas reflexões a esse respeito, ressaltando que os efeitos das escolas podem variar para diferentes tipos de conteúdos, sendo maiores para Matemática e Ciências, que são ensinadas basicamente no ambiente educacional, do que para leitura ou línguas estrangeiras, mais suscetíveis a influências do lar. As diversas investigações aportam informações válidas sobre a influência que exercem os centros educativos sobre o rendimento escolar dos aprendizes (Soares, 2002). Nesse âmbito, cabe mencionar que as profundas diferenças entre as escolas públicas e privadas brasileiras, em muitos dos fatores destacados por Miles (1974), Sammons, Hillman e Mortimore (1998), Tobias (1994), Nuthall e Alton-Lee (1995), têm reflexo sobre aspectos facilmente perceptíveis. Assim, por exemplo, Barreto, Trompieri Filho e Andriola (1999) assinalam que as diferenças no rendimento acadêmico dos alunos desses dois tipos de escolas podem repercutir sobre suas crenças pessoais de êxito escolar. Já o estudo executado por Andriola (1997b) demonstrou que os alunos desses dois tipos de escolas têm distintas expectativas sobre a universidade brasileira e isso reflete, em certo sentido, as crenças no êxito pessoal. Enquanto 70% dos alunos das escolas particulares crêem que cursar uma carreira universitária lhes garantirá obter uma profissão de qualidade, apenas 11% dos alunos de escolas públicas concordam com essa opinião. De forma análoga, 89% dos alunos de escolas públicas crêem que outras variáveis, tais como: o esforço pessoal e o fato de cursar uma carreira universitária, lhes permitirão obter uma profissão de qualidade. Por outro lado, tão-somente 30% dos estudantes de escolas particulares compartilham essa mesma opinião. Com base no exposto, pode-se inferir que existem distinções, qualitativas e quantitativas, nas experiências sociais e educacionais dos alunos de escolas particulares e públicas (Ramos, 1999; Nuthall, 1999). No caso brasileiro, as diferenças nessas experiências influem, entre outras coisas, nas opções de trabalho e no grau de aprendizagem em algumas disciplinas, tais como línguas e matemática (Andriola, 1995; 1997ab; 1998c, 1999; Ramos, 1999). Nesse contexto, é quase inevitável que alguns itens presentes em ambos os testes reflitam essas experiências em seus conteúdos e, desse modo, venham a possibilitar a vantagem de um grupo sobre o outro, isto é, determinem a presença do DIF. Hamilton (1999) observou que, em alguns casos de DIF favorável às mulheres são exigidos determinados conhecimentos obtidos fora da escola, sobretudo em itens utilizados na avaliação do conhecimento em ciências. Também Andriola (2001 d) encontrou seis itens com DIF em um banco de itens organizado para a evaliação do raciocínio verbal de estudantes brasileiros do ensino médio (Andriola, 1998b), sendo três deles benignos aos alunos de escolas públicas (GR) e os outros três benignos aos alunos de escolas particulares (GF). Por outro lado, Clauser, Nungester e Swaminathan (1996) estudaram a presença de DIF em 440 itens de um teste para medir a aptidão para a Medicina Clínica utilizado pelo National Board of Medical Examiners. Os autores supuseram que os itens com DIF poderiam medir alguma aptidão secundária que, de algum modo, pudera possibilitar que certos grupos de indivíduos, com características demográficas muito específicas avantajassem outros indivíduos de grupos com características demográficas distintas. O fato de haverem realizado residência médica pode, supostamente, proporcionar aos estudantes a aquisição de habilidades que lhes possibilita terem vantagem na resolução das tarefas presentes nos itens utilizados. Assim, em comparação com os alunos com a mesma habilidade, os que fizeram residência médica tiveram maior probabilidade de acertar o mesmo item em até 30% dos casos. 4. Hipóteses da investigação Com fundamento nos dados e nas diversas informações resultantes dos estudos relatados, elaboramos duas hipóteses para serem testadas na presente investigação. A primeira (H1) indica que,
Nesse contexto, há que se destacar que para detectar a presença de itens com DIF foi utilizado o método Mantel-Haenszel, que foi desenvolvido por N. Mantel e W. Haenszel no ano 1959, e aplicado ao estudo do DIF por P. W. Holland e D. T. Thayer em 1988 (Angoff, 1993; Dorans y Holland, 1993). Consiste, basicamente, na comparação das freqüências observadas e esperadas de acertos e erros nos grupos de referência e focal, de acordo com os distintos níveis de habilidade (j) escolhidos pelo investigador. A segunda hipótese (H2) da investigação aponta que
Os alunos que estudaram todo o ensino fundamental (I e II) e médio em escolas particulares compõem o GR (n = 17.763), enquanto aqueles que o estudaram em centros educacionais públicos compõem o GF (n = 4.441). 5. Método empregadoA investigação executada foi do tipo correlacional (ex post-facto), já que os dados foram coletados in situ e, ademais, não houve nenhum tipo de manipulação de variáveis (Bryman e Cramer, 1992; Kvanli, 1988). 5.1. Descrição da amostra de aprendizesCom as respostas dos 29.777 candidatos inscritos no processo seletivo da Universidade Federal do Ceará (UFC) nas provas de Língua Portuguesa e Matemática, foram efetuadas as análises para verificar a existência do DIF nos itens dos mencionados testes de rendimento. Não obstante, antes disso, é aconselhável descrever as principais características demográficas da amostra de estudantes. O gênero feminino foi majoritário entre os respondentes, correspondendo a 16.581 casos (55,7%), sendo que 14.147 tinham idades entre 19 e 24 anos; 94,9% viviam na zona metropolitana de Fortaleza (n = 28.224); 64,2% haviam estudado todo o ensino fundamental em escolas particulares (n = 19.119) e tão-somente 15,9% em escolas públicas (n = 4.719). Esse dado nos faz constatar que um reduzido percentual de alunos do ensino fundamental público chega a tentar ingressar em uma universidade pública. A diferença entre o percentual de egressos procedentes de escolas particulares (64,2%) e de escolas públicas (15,9%) permite-nos obter uma imagem que demonstra a baixa qualidade do ensino público no Ceará. 5.2. Instrumentos utilizadosForam empregados dois testes de rendimento das disciplinas de Língua Portuguesa e Matemática, ambos destinados a avaliar o grau de aprendizagem dos candidatos a ingressar na Universidade Federal do Ceará para o ano acadêmico de 2000. Essas provas foram aplicadas na primeira etapa do processo seletivo (vestibular) e compunham-se, respectivamente, de 18 e 15 questões fechadas, com cinco opções propostas como respostas. Para identificar as características demográficas dos sujeitos da amostra, foram utilizados os dados resultantes da aplicação do questionário para a caracterização socioeconômica e cultural dos candidatos. 6. Apresentação e discussão dos resultados 6.1. Análise do DIF no Teste de Português segundo o tipo de escola A Tabela 1 contém os valores do coeficiente aMH, da prova de contraste (c2MH), das probabilidades de que aMH deva-se ao acaso (p) e as respectivas classificações para o DIF, nos 18 itens do Teste de Português. TABELA 1. VALORES aMH PARA OS ITENS DO TESTE DE PORTUGUÊs
Fonte: pesquisa própria. 6.2. Análise do DIF no Teste de Matemática segundo o tipo de escola A Tabela 2 contém os valores do coeficiente aMH, da prova de contraste (c2MH), as probabilidades de que os valores dos aMH decorrem do acaso (p) e as respectivas classificações para o DIF. TABELA 2. VALORES aMH PARA OS ITENS DO TESTE DE MATEMÁTICA
Fonte: pesquisa própria. 6.3. Análise do impacto no Teste de Português segundo o tipo de escola O estudo do impacto em cada um dos 18 itens da prova de Português é importante para que possamos identificar e compreender as possíveis diferenças entre os alunos de tipos distintos de escolas, em termos de suas pontuações médias. Assim, poderemos saber se há alguma relação entre possíveis diferenças no impacto e a presença do DIF nos itens 3, 5, 10, 14, 17 e 18 (que possuem DIF benigno ao GR). A Tabela 3 apresenta os resultados da Análise de Variância (one-way) para os 18 itens do teste de Português. TABELA 3. COMPARAÇÃO ENTRE AS PONTUAÇÕES MÉDIAS DO GR E DO GF NOS 18 ITENS
Fonte: pesquisa própria. Observando a Tabela 3, nos damos conta de que os 18 itens possuem diferenças significativas entre os alunos do GR e os do GF, já que os valores de F assim o indicam. Nesses itens as médias das pontuações dos componentes do GR foram superiores às médias dos componentes do GF. Em outras palavras, há indícios de que os alunos do GR têm maior grau de conhecimento de Língua Portuguesa do que os do GF. Nesse contexto, a segunda hipótese da investigação (H2: m1 > m2), afirmando que “os alunos de escolas particulares (GR) terão melhores rendimentos que os de escolas públicas (GF) nos itens dos testes de Português e Matemática” foi corroborada. 6.4. Análise do impacto no Teste de Matemática segundo o tipo de escola Apresentamos, a seguir, a Tabela 4, contendo os resultados do teste da Análise de Variância (one-way) para cada um dos 15 itens do teste de Matemática. TABELA 4. COMPARAÇÃO ENTRE AS PONTUAÇÕES MÉDIAS DO GR E DO GF NOS
Fonte: pesquisa própria. Nos dois únicos casos de diferenças significativas entre as pontuações médias do GR e do GF (itens 5 e 6), os valores das pontuações dos componentes do GF foram superiores às médias dos componentes do GR, ou seja, considerando-se os alunos que acertaram os itens 5 e 6 do Teste de Matemática, existem indícios de que os sujeitos do GF têm maior grau de conhecimento sobre os conteúdos de matrizes, determinantes e equações do 2º grau (item 5) e sistemas de equações, fatorização e equação modular (item 6) que os alunos do GR. Há uma explicação plausível para essas diferenças favoráveis aos alunos de escolas públicas em ambos os itens. Existe um considerável número de alunos de escolas públicas que estudaram em dois colégios que lhes proporcionam excelente formação acadêmica e profissional, que se chamam Centro Federal de Ensino Técnológico do Ceará (CEFET/CE) e Colégio Militar, cujo ensino nas áreas de Matemática, Física e Química é reconhecido como de alta qualidade. Assim, são compreensíveis as diferenças detectadas em ambos os itens, favoráveis aos que estudaram todo o ensino fundamental e médio em escolas públicas (GF). Nesse contexto, a segunda hipótese da investigação (H2: m1 > m2), afirmando que “os alunos de escolas particulares (GR) terão melhores rendimentos que os de escolas públicas (GF) nos itens dos Testes de Português e Matemática”, não foi corroborada. 6.5. Ponderações finais acerca dos resultados Considerando-se o tipo de escola dos estudantes, detectamos 13 casos de DIF (72,2% do total) no teste de Português (itens 1, 3, 5, 7, 8, 9, 10, 11, 13, 14, 16, 17 e 18), sendo que nos itens 3, 5, 10, 14, 17 e 18, o DIF é benigno ao GR (alunos de escolas particulares). Identificamos 12 casos de DIF (80% do total) no teste de Matemática (itens 2, 3, 4, 5, 8, 9, 10, 11, 12, 13, 14 e 15), tendo cinco deles DIF benigno ao GR (itens 3, 4, 5, 8 e 9). Esses dados demonstram que a afirmação de Muñiz (1997) é verdadeira. Segundo o autor, não existem provas inteiramente isentas de vieses. Nesse âmbito, temos que detectar a quantidade de vieses que pode ser aceitável em um determinado teste ou item. Com respeito ao impacto em ambos os testes, foram detectadas diferenças significativas entre as pontuações médias dos grupos em todos os 18 itens do teste de Português favoráveis, em sua totatlidade, aos alunos de escolas particulares. Em apenas dois itens do teste de Matemática (5 e 6), as diferenças verificadas foram favoráveis aos alunos de escolas públicas. Como destacamos antes, muitas investigações aportam informações válidas sobre a influência que exercem os centros educativos sobre o rendimento escolar dos aprendizes, dando-nos conta de que as profundas diferenças entre as escolas públicas e privadas brasileiras têm reflexo sobre aspectos facilmente perceptíveis, tais como o grau de aprendizagem dos discentes. Efetivamente, pelo menos quanto ao domínio da língua materna, os alunos de escolas particulares demonstraram ser muito superiores aos aprendizes de escolas públicas. Quanto ao domínio da Matemática, podemos acentuar que houve um “empate técnico”. Através da análise qualitativa dos itens com DIF, constatamos que termos “pouco conhecidos” ou “pouco utilizados” pelos estudantes estiveram presentes em 25% desses casos no teste de Português, ascendendo a 36,4% no teste de Matemática. Esses resultados indicam certa “pobreza no vocabulário” dos estudantes, apontando para uma importante disfunção das instituições de ensino. Como afirmou o Apóstolo São Mateus: arbor ex fructu cognoscitur. 6.6. Ponderações finais acerca da investigaçãoO propósito de nosso trabalho foi contextualizar o estudo do funcionamento diferencial do item (DIF) no amplo e complexo campo da avaliação da qualidade educacional. Para isso, tentamos demonstrar o aspecto que une as investigações sobre o DIF aos processos de avaliação educacional. Afirmamos que a qualidade educacional, independentemente do seu significado, é um construto intimamente associado ao uso de procedimentos sistemáticos de avaliação (Andriola, 1999a, 2000, 2001). Ademais, sabemos que um poderoso indicador da qualidade de uma institução educacional é o grau em que esta consegue alcançar os objetivos curriculares propostos a priori, isto é, o grau de efetividade ou eficácia escolar que possui (Sammons, Hillman e Mortimore, 1998). Posteriormente, destacamos que o procedimento mais adequado para medir o grau de efetividade escolar é através da comparação dos resultados educativos observados com aqueles esperados (Orden Hoz, 1992), isto é, comparar o grau de aprendizagem obtido pelos alunos com os objetivos educativos propostos. Para tanto, devemos usar os conhecidos testes de rendimento ou referidos a um critério, já que são considerados os instrumentos mais adequados a esse tipo de estudo. Não obstante, é bastante comum que os itens utilizados nesse tipo de teste tenham uma característica conhecida como DIF. Como enfatizamos nos tópicos anteriores, o DIF ocasiona sérios problemas às avaliações educacionais (Hartle e Bataglia, 1993). Trata-se de um fator de injustiça para alguns grupos de respondentes, já que os alunos que possuem o mesmo grau de aprendizagem, mas que provêm de grupos demográficos distintos, têm diferentes probabilidades de acertar um mesmo item. Portanto, devemos reconhecer a relevância dessas investigações, pois podem proporcionar maior eqüidade aos processos de avaliação educacional, através da identificação e não utilização daqueles itens que possuam algum tipo de DIF. Por fim, devemos enfatizar que o estudo do DIF deve preceder qualquer processo de avaliação educacional sério, ou seja, esse tipo de estudo deve, necessariamente, compor a fase de pré-teste dos itens antes de sua definitiva utilização (Andriola, 2001, 2002, 2006). 7. À guisa de conclusãoConstatamos que a área de investigação do DIF no âmbito educativo e psicológico é recente e, ademais, necessita de boas hipóteses, fundamentadas em teorias científicas, que tentem “abrir perspectivas” aos estudos do DIF (Hambleton, 1997; Roznowski e Reith, 1999; Scheuneman & Gerritz, 1990). Como opina Bond (1993):
Schmitt, Holland e Dorans (1993) acreditam que a área que investiga o DIF não tem progredido no grau desejado em virtude de três fatores:
Devemos dizer que o processo de criação de boas hipóteses explicativas do DIF deverá, logicamente, ser árduo, difícil e frustrante. As hipóteses deverão ser corroboradas ou de rejeitadas, algo bastante comum à atividade científica. Como nos lembra Júlio Verne, a ciência é composta de erros, que são os passos em direção à verdade. Mais recentemente, o economista norte-americano Paul Samuelson, ganhador do prêmio Nobel de Economia, saiu-se com a seguinte frase: de funeral em funeral a ciência avança (Wilson, 1999). Todavia, muito tempo antes, na Roma antiga, o orador Cícero sentenciava: Vivere est cogitare. Devemos ter claro o fato de que a presença do DIF em itens de instrumentos de medida psicológica e pedagógica é um grave problema que atenta contra o suposto da padronização ou uniformização das condições de avaliação. É uma fonte de injustiça, já que produz falta de eqüidade aos processos avaliativos; permite aos sujeitos que possuem o mesmo grau na variável latente ou construto medido pelo item obter melhores resultados, já que esses têm maiores probabilidades de acertá-lo (Douglas, Roussos e Stout, 1996). Nesse âmbito, caberá aos responsáveis pela construção, administração e comercialização de testes psicológicos e pedagógicos, a verificação da presença do DIF em seus instrumentos, já que a sua existência é um fator de invalidação dos resultados. Também os psicometristas que começam a organizar bancos de itens necessitam verificar a presença do DIF e, assim, evitar utilizá-los em processos avaliativos (Andriola, 1998b, 2001, 2002). Para finalizar, mencionaremos uma célebre frase latina, que é muito sugestiva e sintetiza em nossa opinião, a importância dos estudos sobre o DIF no âmbito da avaliação psicológica e educacional: fiat justitia, pereat mundus.
REFERENCIAS BIBLIOGRÁFICAS Allalouf, A., Hambleton, R.K. e Siresi, S.G. (1999). Identifying the causes of DIF in translated verbal items. Journal of Educational Measurement, 36 (3), pp. 185-198. Alexander, P.A. e Judy, J.E. (1998). The interaction of domain-specific and strategic knowledge in acdemic performance. Review of Educational Research, 58, pp. 375-404. Andriola, W.B. (1995). Avaliação do raciocínio numérico em estudantes do 2º grau. Educação em Debate, 29/32, pp. 95-99. Andriola, W.B. (1997a). Avaliação do raciocínio verbal em estudantes do 2º grau. Estudos de Psicologia,, 2(2), pp. 277-285. Andriola, W.B. (1997b). Expectativas de estudantes do 2º grau sobre a Universidade. Educação em Debate, 33, pp. 39-45. Andriola, W.B. (1998a). Apresentação de um Modelo Teórico destinado à avaliação dos Programas Estaduais de Qualificação Profissional (PEQ’s). Ensaio: Avaliação de Políticas Públicas em Educação, 19(6), pp. 259-266. Andriola, W.B. (1998b). Utilização da teoria da resposta ao item (TRI) para a organização de um banco de itens destinados à avaliação do raciocínio verbal. Psicologia: Reflexão e Crítica, 11(3), pp. 295-308. Andriola, W.B. (1998c). Inteligência, aprendizagem e rendimento escolar segundo a Teoria Triárquica da Inteligencia (TTI). Educação em Debate, 35, pp. 75-80. Andriola, W.B. (1999a). Evaluación: La vía para la calidad educativa. Ensaio: Avaliação e Políticas Públicas em Educação, 7(25), pp. 355-368. Andriola, W.B. (1999). Avaliação do raciocínio abstrato em estudantes do ensino médio. Estudos de Psicología, 4(1), pp. 23-37. Andriola, W.B. (2000). Calidad educativa y efectividad escolar: conceptos y características. Educação em Debate, 39(1), p. 7-14. Andriola, W.B. (2002). Determinación del funcionamiento diferencial de los ítems (DIF) destinados a la evaluación del razonamiento verbal a partir del tipo de escuela. Bordón: Revista de Pedagogía, 53(4),pp. 473-484, 2002. Andriola, W.B. (2002). Detección del funcionamiento diferencial del ítem (DIF) em tests de rendimiento. Aportaciones teóricas e metodológicas. Tese Doutoral. Madrid: Universidad Complutense de Madrid. Andriola, W.B. (2006). Estudos sobre o viés de itens em testes de rendimento: uma retrospectiva. Estudos em Avaliação Educacional, 17 (35),pp. 115-134. Angoff, W.H. (1993). Perspectives on differential item functioning. En: P. W. Holland e H. Wainer (Eds.), Differential Item Functioning. New Jersey: Lawrence Erlbaum Associate. Barreto, J.A.E., TrompierI Filho, N. e Andriola, W.B. (1997). Desenvolvimento da estrutura cognitiva de alunos da 4ª e 8ª séries. Educação em Debate, 37, pp. 101-113. Bond, L. (1993). Comments on the O’Neill and McPeek paper. En: P. W. Holland e H. Wainer (Eds.), Differential Item Functioning. New Jersey: Lawrence Erlbaum Associates. Bryman, A. e Cramer, D. (1992). Análise de dados em Ciências Sociais. Oeiras: Celta Editora. Clauser, B.E., Nungester, R.J. e Swaminathan, H. (1996). Improving the matching for DIF analysis by conditioning on both test score and an educational background variable. Journal of Educational Measurement, 33(4), pp. 453-464. Cole, N.S. (1993). History and development of DIF. En: P.W. Holland e H. Wainer (Eds.), Differential Item Functioning. New Jersey: Lawrence Erlbaum Associates. De Miguel, M. (1989). Modelos de investigación sobre organizaciones educativas. Revista de Investigación Educativa, 7(13), pp. 21-56. Douglas, J.A., Roussos, L.A. e Stout, W. (1996). Item-Bundle DIF hypothesis testing: identifying suspect bundles and assessing their differential functioning. Journal of Educational Measurement 33(4), pp. 465-484. Dunkin, M. J. (1998). Student characteristics, classroom process and studient achievement. Journal of Educational Psychology, 70 (6), pp. 998-1009. Fuller, B. y Clark, P. (1994). Raising school effects while ignoring culture? Local conditions and the influence of classroom tools, rules and pedagogy. Review of Educational Research, 64, pp. 119-157. Hambleton, R. K. (1997). Perspectivas futuras y aplicaciones. En: J. Muñiz, Introducción a la Teoría de Respuesta a los Ítems. Madrid: Ediciones Psicología Pirámide. Hamilton, L. S. (1999). Detecting gender-based differential item functioning on a constructed-response science test. Applied Measurement in Education, 12(3), pp. 211-235. Hartle, T.W. y Battaglia, P.A. (1993). The Federal Role in standardized Testing (p. 291-311). En: R. E. Bennett y W. C. Ward (Org.), Construction versus Multiple Choice Items in Cognitive Measurement. New Jersey: Lawrence Erlbaum Associates. Horsburgh, M. (1999). Quality monitoring in higher education: the impact on student learning. Quality in Higher Education, 5(1),pp. 9-25. Kvanli, A.H. (1988). Statistics. A Computer Integrated Approach. Saint Paul: West Publishing Company. Lord, F.M. (1980). Applications of Item Response Theory to Practical Testing Problems. New Jersey: Lawrence Erlbaum Associates. Martínez Arias, R. (1997). Psicometría. Teoría de los Tests Psicológicos y Educativos. Madrid: Ediciones Síntesis. Mc Donald, B.C. (2003). (org.). Esboços em avaliação educacional. Fortaleza: Editora da UFC. Mellenbergh, G.J. (1989). Item bias and item response theory. International Journal of Educational Research, 13(2), pp. 127-143. Miles, M.B. (1974). Las diez características del centro docente “sano”. La Educación Hoy, 5, pp. 197-198. Moura Castro, C. (1999). Escolas feias? Escolas boas? Ensaio: Avaliação e Políticas Públicas em Educação, 7(25), pp. 343-354. Muñiz, J. (1994). Teoría Clásica de los Tests. Madrid: Ediciones Pirámide. Muñiz, J. (1997). Introducción a la Teoría de Respuesta a los Ítems. Madrid: Pirámide. Nuthall, G. (1999). Relating learning to individual differences in ability. Journal of Educational Research, 31(3), pp. 212-255. Nuthall, G. y ALton-Lee, A.G. (1995). Assessing classroom learning: how students use their knowledge and experience to answer achievement test questions in science and social studies. American Educational Research Journal, 32, pp. 185-223. Nuthall, D.L., Goldstein, H., Prosser, R. y Rabash, J. (1989). Differential scholl efectiveness. International Journal of Educational Research, 13(7), pp. 769-776. OCDE – Organización para la Cooperación y el Desarrollo Europeo (1995). Schools under scrutiny. Paris: Head of Publication Service. Orden Hoz, A. (1992). Calidad y evaluación de la enseñanza universitaria. Resumenes del Congreso Internacional de Universidades. Madrid, julio, pp. 531-539. Orden Hoz, A. (1993). La escuela en la perspectiva del producto educativo. Reflexiones sobre evaluación de centros docentes, Bordón, 45(3),pp. 263-270. Ramos, E.A. (1999). Aprendizagem humana. Cadernos de Educação, 23, pp. 37-49. Rego, A. (2000). Impactos dos comportamentos de cidadania docente sobre os alunos universitários. A perspectiva dos estudantes e dos profesores. Linhas Críticas, 6(10),pp. 9-30. Rego, A. (2001). Eficácia comunicacional dos docentes do Ensino Superior: evidência confirmatória do constructo. Psicologia: Reflexão e Crítica, 14(3), pp. 563-568. Rossi, P.H., Freeman, H.E. y Lipsey, M.W. (1999). Evaluation. A systematic approach. London: Sage Publications. Roznowski, M. e Reith, J. Examining the measurement quality of tests containing differentially functioning items: Do biased items result in poor measurement? Educational and Psychological Measurement, 52 (2), p. 248-269, 1999. Scheerens, J. (1992). Effective schooling: research, theory and practice. Londres: Cassell. Scheuneman, J. D. y Gerritz, K. (1990). Using differential item functioning procedures to explore sources of item difficulty and group performance characteristics. Journal of Educational Measurement, 27(2), pp. 109-131. Schmitt, A.P., Holland, P.W. y Dorans, N.J. (1993). Evaluating hyphoteses about differential item functioning (p. 281-319). En: P. W. Holland y H. Wainer (Eds.), Differential Item Functioning. New Jersey: Lawrence Erlbaum Associates. Soares, J.F. (Coord.) (2002). Escola eficaz: um estudo de caso em três escolas da rede pública do Estado de Minas Gerais. Belo Horizonte: GAME/UFMG. Thissen, D., Steinberg, L. y Fitzpatrick, A.R. (1989). Multiple-choice models: the distractors are also part of the item. Journal of Educational Measurement, 26(2),pp. 161-176. Thissen, D., Steinberg, L. y Wainer, H. (1993). Detection of differential item functioning using the parameters of item response models (p. 67-113). En: P. W. Holland y H. Wainer (Eds.), Differential Item Functioning. New Jersey: Lawrence Erlbaum Associates. Tobias, S. (1994). Interest, prior knowledge and learning. Review of Educational Research, 64 (1),pp. 37-54. Wilson, E.O. (1999). Consilience. La Unidad del Conocimiento. Barcelona: Ediciones Galaxia Gutemberg. Zumbo, B.D. (1999). A Handboock on the theory and methods of differential item functioning (DIF). Logistic regression modeling as a unitary framework for binary and Likert-type (ordinal) item scores. Ottawa: Directorate of Human Resources Research and Evaluation, Department of National Defense of Canadá.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||