|
home
|
Joachim Wuttke:
PISA & Co
A Critical Online Bibliography |
|
Introductory Notes
Motivation
In some European countries,
OECD's programme for international school assessment
has had tremendous impact on public opinion.
In Germany, "PISA" has become a synonym for whatever
is believed to go wrong in the school system,
and it is cited as justification for the most diverse
political demands and decisions
(Fertig 2004, Stamm 2005,
Tillmann et al. 2008, ...).
OECD's publicity has successfully created the impression
that PISA yields reliable data, based on commonly accepted methodology.
This is a delusion.
PISA basically copied its methodology from TIMSS
which in turned has borrowed much from USA's NAEP and
from previous studies of the IEA.
All these studies are heavily contested in the scientific literature.
Central assumptions have been disproven time and again.
Yet it is difficult for outsiders to grasp the state of the
scientific debate.
While the test industry is well organized, internationally connected,
and financially potent,
critics tend to be isolated, often ignoring each other:
there is little point in organising anti-testing congresses ...
Critical analyses of PISA&Co, published in different
languages and in disperse locations,
are often difficult to find.
Only recently, two collections of essays
(Jahnke, Meyerhöfer 2006/7
in German;
Hopmann, Brinek, Retzl 2007
in German and English)
and some review papers (Goldstein 2008 in French,
Bank and Heidecke 2009 in German)
provided some overview, showing from how many different viewpoints
the methodology of school assessments needs to be debated:
|
No step in the research process seems to be without
substantial problems, several steps do not meet rigorous
scholarly standards (Hopmann and Brinek 2007). |
This online bibliography intends to carry that effort forward,
providing an entrance point to a vast body of literature.
Reprint Repository
Some papers that are otherwise difficult to access are
republished in an archiv
associated with this website.
Thanks to authors and publishers for their kind permission.
My own publications on PISA are accessible here.
Status
This is work in progress.
It will be occasionally updated, as I find time.
Comments and suggestions are always welcome:
please send mail to <my first name>.<my last name>@messen-und-deuten.de.
Quotes
In the systematic part of this bibliography,
no effort is made to keep quotes and summaries distinguishable.
Many quotes had to be translated,
many have been contracted to a point where it is no more appropriate
to mark them as quotes.
However, most text in the systematic part of this bibliography
can be traced back to the alphabetic part
that consists of references and excerpts.
In that part, all quotes
are in double quotation marks ("..."); all other text is mine.
If in doubt, read the cited original work.
Referencing this Work
Students beware:
Collecting, excerpting, abstracting and translating
creates intellectual property.
When using this bibliography for scholastic or scientific work,
don't forget to cite it.
The recommended form of citation is: Joachim Wuttke:
OECD/PISA. A Critical Online Bibliography (2008-).
http://www.messen-und-deuten.de/pisa/biblio.htm (<date>).
|
|
| |
|
Systematic Part (work in progress...) |
|
Background and Concept
Fifty Years of International School Assessments
International comparisons of student performance started in the 1960s
(Foshay 1962).
The IEA
(International Association for the Evaluation of Educational Achievement)
was founded in 1967, but traces its origins back to 1958
(IEA website).
50 years of failure, to make my standpoint clear from the beginning.
The shortcomings of the first huge studies conducted by the IEA
(International Association for the Evaluation of Educational Achievement)
have been dissected impressively by Freudenthal 1975.
At present, the IEA cyclically conducts two major studies:
TIMSS (Trends in Mathematics and Science Study, 1999, 2003, 2007, ...)
and PIRLS (Progress in Reading Literacy Study, 2001, 2006, ...;
in Germany known as IGLU).
In the 1990s, the OECD
(Organisation for Economic Co-operation and Development),
the statistics bureau of the developped nations,
expanded its educational monitoring,
culminating in PISA (programme for international school assessment).
It was kind of a hostile takeover:
The OECD hired psychometricians who had worked on TIMSS,
copied the methodology,
used the same software,
and took over entire countries
(like Germany, which discontinued TIMSS in favor of PISA).
Decision processes in the OECD are opaque;
it is difficult to voice diverging opinions (DESCO 2003).
The Test Industry
PISA is run by huge companies who serve — and create —
worldwide demand for all kind of tests (Flitner 2006).
"Indeed, if one wants to understand the driving forces behind the
unmitigated expansion of standardized testing in the United States,
then it behooves one to obey the simple adage: Follow the money."
Besides the test industry (Psychological Corporation / Harcourt,
Riverside / Houghton Mifflin, National Computer Systems Inc.,
California Test Bureau / McGrawHill, Educational Testing Service),
there florishes a peripheral industry that coaches people for college and
university admissions tests (Princeton Review, Kaplan)
(Sacks 1999).
In Germany, education politics is increasingly defined by the
Bertelsmann foundation, a branch of the giant publishing house.
The foundation impels politicians to privatise the public sector,
creating a market for services offered by other branches of
Bertelsmann.
It advocates all kinds of tests and evaluations —
and evaluates the success of those who followed its advice
(Lohmann 2006a, 2006b).
Designed to Produce Rankings
There is a conflict between political and scientific interests.
PISA's focus on one-dimensional ranking is serving politics,
not science. It makes the study vulnerable to cultural bias.
A pedagogical approach,
by trying to understand why some skills are better mastered
in some countries, would certainly have been more informative
than constructing macro indicators which can only be interpreted
from the point of view of country rankings
(Bonnet 2002,
Rocher 2003, Bottani and Vrignaud 2005).
The publicity PISA got in some countries seems to be mainly due
to what is actually its weakest point: the methodically untenable
ranking of countries (Hopmann 2007).
"Tests, distinguishing between 'able' and 'less able' students,
reinforce the tendency of teachers to think in terms of 'ability'
rather than 'abilities'; they measure — and focus
attention on — only a tiny fraction of the talents which schools
could be identifying, fostering, and recording.
If we are to find ways of assessing important human traits we will need
to abandon our desire to develop value-free, internally consistent
measures. Instead, we will need to develop value-based,
maximally-internally-heterogeneous indices which do justice to the
psychological complexity of these qualities" (Raven 1991).
The Test Items: What Does PISA Measure?
The Notion of 'Literacy'
Items become easier if students read first the questions,
then the introductory material;
the ability that is being tested is not
'reading in a real life situation',
but 'reading in a examination context';
this focus is too narrow to draw far-reaching consequences
(Switalla 2002, Bain 2003).
The global and vague definition of mathematical literacy looses
its meaning through its operationalization in the form of PISA test items
(Jablonka 2006).
For a majority of items, 'mathematical literacy'
is either not necessary or even obstructive (Bender 2006).
The theory that is said to underly item construction is actually
not used (Meyerhöfer 2005).
Quality of Test Items
Interviews with students show that TIMSS items don't work
as their authors intended (Hagemeister 1999).
PISA is an intelligence test (Rindermann 2006,
2007b).
Translation and Cultural Bias
The translation problem is a very fundamental one,
and a solution is not even in sight
(Freudenthal 1975, Sireci 1997).
Student responses depend on minor nuances in the wording of items
(Blum and Guérin-Pace 2000 p. 113, Olsen et al. 2001).
This can also be seen in published student responses
(Blanke et al. 2004).
Discounting all other problems,
different text length alone is sufficient to introduce
consequential bias
(Puchhammer 2007, Wuttke 2007b ch. 4.8).
There is a bias in favor of english-speaking students
and in favor of countries that contributed items
(Artelt and Baumert 2004, Langfeldt 2007).
Similarly in TIMSS: items reflected North American school reality
(Hagemeister 1999).
The impact of language and culture on the test results
can be demonstrated by a purely mathematical procedure
that uncovers similarities between groups of countries
(Zabulionis 2001, Rocher 2003, Olsen 2005,
Wuttke 2007b ch. 4.8).
Testwiseness
In the USA, the impact of testwiseness is recognized since many
decades.
It can be defined "as a subject's capacity to utilize the characteristics
and formats of the test and/or the test taking situation to receive
a high score. Test-wiseness is logically independent
of the examinee's knowledge of the subject matter
for which the items are supposedly measures"
(Millman et al. 1965, Test Your Testwiseness).
Test-taking ability is a decisive factor
that easily outweighs the specific competences that ought to be measured
(Boe et al. 2002).
Testwiseness is prevalent among North Americans,
less so among international graduates (Mahamed et al. 2006).
Concerning PISA,
detailed analysis of some math items shows importance of
test-taking skills
(Meyerhöfer 2005, 2007).
Coding instructions for open items show that
very short answers are often sufficient,
provided they somehow vary the words of the question.
This examination style is common in some countries,
but completely unknown in others (Romainville 2002,
Bain 2003).
Student Motivation
By adolescence many students became suspicious and cynical about tests
(Paris et al. 1991).
Published solutions from Luxembourg show that
some students do not take the test serious:
they spend exagerated time on nice drawings,
instead of working against the clock (Blanke et al. 2004).
Motivation is a decisive factors
that easily outweighs the specific competences that ought to be measured
(Boe et al. 2002, Wise and DeMars 2005).
Huge difference between different countries
(Sjoeberg 2007, Wuttke 2007c).
How are Student Responses Converted to "Competence" Values?
Item Response Theory
There are tens of textbooks on IRT. Most of them are very similar:
written for mathematically challenged readers,
they spread elementary calculations over tens of pages,
and stop when things become interesting.
The book edited by Fischer and Molenaar 1995
is a laudable exception: it presents a deep, coherent view on IRT.
In German language, the most important textbook is Rost 2004.
Rost has been the expert for psychometry in the
German consortium for PISA 2000 and 2003. Nevertheless,
he has serious reservations about the simple Rasch model used in PISA
(Rost 1999).
Where is the theory? IRT should better be named IRM, item response
modelling. Looking back at 50 years,
a disappointing lack of advance is found
(Goldstein and Wood 1998).
Is One-dimensional Item Response Theory Applicable to PISA?
One-dimensional IRT is a caricature,
an application of 20th century statistics to 19th century psychology
(Mislevy in Frederiksen et al. 1993).
The U.S. NAEP from which PISA indirectly borrows its methodology,
is rejected by the National Academy of Sciences and other organizations
— among other reasons because results are inconsistent:
Children can't answer questions they should be able to and can answer
questions they shouldn't be able to (Bracey 2007).
Pedagocially relevant information is lost when reducing
empirical results to a one-dimensional scale
(Olsen et al. 2001, Rocher 2003,
Olsen 2007).
Whether one-dimensional IRT fits to given test results or not,
is a relatively well defined question that can be decided by
statistical tests, or better by drawing some graphs
(Hambleton et al. 1991, p. 66;
Andersen, quoting Rasch, in Fischer and Molenaar 1995, p. 387;
more generically Meehl 1978, p. 825).
These checks show consistently that PISA data are not
onedimensional:
One-dimensional IRT was originally invented for open-response items.
The problem of guessing in multiple-choice items has never
been satisfactorily solved (Goldstein and Wood 1998).
PISA items invite 'qualified guessing' (Meyerhöfer 2004a,
D. Lind 2004).
Items are not homogenous with respect to sex, and ethnicity
and year of investigation (Allerup 2007).
Comparison of reading items between two countries shows that
latent abilities are at least two-dimensional
(Goldstein et al. 2007).
Standard IRT does not work for tests done under time pressure
(Rost 2004). PISA, however, is performed under
considerable time pressure (Wuttke 2007b, ch. 4.9).
On the other hand, the cognitive test of PISA is rather long.
Besides 'ability', PISA is clearly testing patience
(Wuttke 2007b, ch. 4.9).
Change in item-order suffices to disprove Rasch assumptions
(Zwick 1992).
Representativity and Accuracy
Choice of Target Population
PISA's target population, school students at age 15,
is not everywhere representative for the age cohort.
In several countries, school is not obligatory at that age 15.
In Mexico, Turkey, Liechtenstein, a large fraction of students
has left schools by then. Schools in Portugal, Great Britain,
and many other places are plagued by drop out and absenteism.
Therefore, students at age 15 are not representative for the
'outcome' of entire 'school systems'
(Wuttke 2007b, ch 2.1).
On the other hand, at age 15 the capacity of abstract reasoning is still
in full development (Carroll 1987).
Therefore, the abilities of 15-year-olds are far from representing
the final 'outcome' of schooling.
Sampling Problems
Leading members of the international PISA team admit
that absent students "are likely to cause bias"
(Monseur and Wu 2002).
Weak students tend not to participate
(Micklewright and Schnepf 2006,
Prais 2007, Wuttke 2007b ch. 2.7).
Criteria for including countries with insufficient response
are not adequately documented (Micklewright and Schnepf 2006).
Defining homogeneous exclusion criteria across different jurisdictions
is actually quite a fundamental problem. Even within the USA,
in the nation-wide NAEP assessment, there is a strong likelihood
that student exclusions cause bias that cannot
be corrected by currently used methods (Braun et al. 2010).
Coverage of handicapped students is rather inconsistent
(Hörmann 2007).
Some countries exclude students with dyslexia or/and dyscalculia
from the PISA sample (OECD 2005a pp. 183-).
In PISA 2003, Austria experienced a slump with respect to 2000.
The ministry, accused of having spoiled the country's schools,
commissioned an investigation. The investigators discovered
a major inconsistency in the PISA 2000 sample,
due to a data transmission error. Students from vocational schools
had been underweighted. Corrected data for PISA 2000 were as mediocre
as for 2003; no slump had happened (Neuwirth et al. 2006).
As sampling procedures are largely undocumented,
they are not only error-prone, but also susceptible
to intentional manipulations
(Nichols and Berliner 2007: "states cheat too").
How that works in practice has been found out by a teacher
from Southern Tyrol:
the superb results of that one-party state
are almost certainly due to biased sampling (Putz 2004,
2008).
Scaling Problems
Violations of latent-trait unidimensionality in combination
with the multiple-booklet design and
and variance-reducing measures in the scaling procedure
lead to distortions
of up to 16 points (booklet-9-effect, Neuwirth et al. 2006,
Wuttke 2007b ch. 3.10).
Quantifying Social, Economic and Cultural Background
The "Standard International Socio-Economic Index of Occupational Status"
(ISEI), used in PISA for indexing the occupation of parents,
is based on an incredibly shallow compilation
(Ganzeboom et al. 1992).
Though only derived for men, in PISA the ISEI is also applied to women.
German PISA authors disagree strongly with OECD's
choice of expressing social, economic and cultural background
by the ESCS index
(Baumert et al. 2006).
No valid conclusions can be drawn from student-provided background data
(DESCO 2003).
Up to 73% of PISA examinees failed to indicate the exact educational level
of their parents,
about 60-65% described the parents' professions incorrectly
(Maaz et al. 2006 — everything in this study
denies the conclusion that students are reliable informants).
Communication and Interpretation of Results
Communication of Results
First published reports were full of gaps and flaws,
and far below academic standards
(v. Collani 2001).
PISA authors do not enough against misunderstanding and overinterpretation
of statistical results (Bender 2005a, Stamm 2005).
Statistical significance and practical significance are easily confused.
Correlation coefficients suggest invalid causal inferences
(Bracey 2006).
Published error bars and significance criteria are misleading;
systematic errors far outweigh published stochastic errors
(Yamamoto and Mazzeo 1992, Wuttke 2007a,
2007b).
Discord Inside PISA
A member of the German PISA advisory board calls the country rankings
'a game' (Klemm 2006); he also criticizes confusing
indicators and definitions (Klemm 2008).
When results from PISA 2006 were published, the latent conflict between
OECD's PISA secretary Schleicher and the German PISA team
(Flitner 2006)
could no longer be concealed from the general public
(Füller 2007).
Baumert et al. 2006 strongly criticize the
index of social, economic, and cultural status used by the OECD.
They also point out specification errors in the international PISA reports:
stratification effects of the German school system are not correctly
taken into account.
Reaction to Criticism
PISA authors employ an ungraceful tone;
critics are frequently accused of misunderstanding
(Bender 2005a).
PISA authors react to criticism not like scientists
but like managers who defend a business
(Meyerhöfer 2006a, Hopmann and Brinek 2007).
According to a PISA profiteer, criticism is due to envy
(Köller 2006).
'Competence Levels'
Definition of competence levels is arbitrary and opaque
(Bain 2003).
Items can be solved in very different ways,
and the difficulty of solutions depends on curricular background.
Therefore it is not possible to assign items to well-defined
competence levels (Meyerhöfer 2004b, contested by
D. Lind et al. 2005, defended by Bender 2005a).
Determinants of Student Achievement
The influence of the migrations structure is systematically underestimated
in favor of an undifferentiated 'social' structure
(Bender 2006).
There is no causal relationship betwee PISA results and what happens
in schools. Visiting any school will teach more about real grievances
(Ladenthin 2007).
Evolution in Time
"Lake Wobegon effect":
Over the years, test scores tend to increase.
Increased achievement is by no means the whole explanation
(Cannell 1988).
There is reason to believe that the problem
of test score pollution is pervasive in American education
(Haladyna et al. 1991).
Variation of item difficulties between PISA 2000 and 2003
is incompatible with the Rasch model (Allerup 2007).
The Identification Problem (Attribution of Results)
PISA "measures" certain abilities of 15-years-olds.
The authors suggest that their data represent the "outcome"
of national "school systems",
and the political impact of the study
is largely due to this interpretation.
However, it is far from clear that differences in test results
are actually due to differences in the school system,
as there are many other input factors,
some of them unobeservable like
"inherited ability, motivation, learning effort etc."
(Fertig 2004).
This is called an identification problem.
Intellectual honesty requires
not to present conclusions, however plausible they may seem,
without exposing the strong assumptions on which they depend
(Manski 1995).
PISA results say much about immigration policy,
little about school quality (Hagemeister 2007-).
The low educational level in immigrant families in Germany is mostly due
absent or failed immigration politics (Schmidt and Fertig 2003).
It is not possible to copy entire school systems
(von Freymann 2003, Bank 2008).
Consequences
Evaluation Culture
Evaluation should assess methods, not persons (G. Lind 2004a).
Political Use and Abuse of PISA
Responsiveness to PISA can be seen as an instance of what Luhmann
has called 'externalisation'.
That is, the reference to 'world situations'
enables policy-makers to make the case for education reforms at home that
would otherwise be contested.
Thus local policy actors are using PISA as a form of
domestic policy legitimation (Grek 2009).
Particularly in Germany, the PISA results were abused by political and
media elites in order to manipulate public opinion and to serve certain
ideologies. PISA shares responsibility for such abuse in two ways...
(Bender 2006).
Political decisions are based on PISA without understanding
how the results came about (Langfeldt 2007).
It seems, everybody uses PISA to find confirmation for his own opinions
(Bozkurt et al. 2007).
Whatever the outcome of PISA, it was used for pushing an agenda
that was written before the test was carried out (Radtke 2005).
PISA Rewrites Curricula
By participating in PISA, German politicians give up souverainty
about what should be learned in German schools (Flitner 2006).
An economic organisation, the OECD, imposes a shift towards
utilitarian education goals
(Romainville 2002, Ladenthin 2003).
Promoton of neo-liberal policy (Uljens 2007).
Economic importance of test results is overestimated
(Salzmann and Lowell 2008).
The structural asymmetry between tester and candidate inevitably
generates a limitation of the autonomy of both tester and candidate
(Meyerhöfer 2006b).
History of curriculum and 'education standards' in Germany
(Sill 2006).
Teaching to the Test
One of the most damaging effects of large-scale, big-stakes
standardized testing in schools has been to
oversimplify what's taught in school,
and to severely constrict what is taught to only those items
most likely to appear on an upcoming test (Sacks 1999).
In the USA, the 'No Child Left Behind' legislation brought
the inflation of tests and evaluations to an apogee.
There are indications that pressure put on schools leads to
increased student drop-out rates (Shriberg and Shriberg 2006).
Pennsylvania is the paradise of standardized ecuation:
tests are now taken once every week (Meyerhöfer 2009).
Teacher Education by Evaluation Specialists
The disproportionate importance of evaluation
in contemporary pedagogical research implies
that teacher education is increasingly entrusted to evaluation specialist
who have little teaching experience of their own
(Giesecke 2004).
|
|
| |
|
Alphabetic Part:
Sources and Excerpts |
|
Allerup P (2007) Identification of Group Differences Using PISA Scales -
Considering Effects of Inhomogeneous Items pp. 175–201 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
Analysing item statistics from PISA 2000 and 2003,
the author shows that scales are not homogenous with respect
to sex, and ethnicity and year of investigation.
The inhomogeneity "seems to have less impact on crude comparisons
of (average) PISA abilities with no other variables involved,
amounting to around 10 PISA points,
while more sophisticated comparisons ... are more affected". |
|
|
| |
Online (restricted)
|
Artelt C, Baumert J (2004) Zur Vergleichbarkeit von Schülerleistungen
bei Leseaufgaben unterschiedlichen sprachlichen Ursprungs. Z. Pädagog. Psychol. 18 (3/4) 171–185.
|
Bei PISA-Aufgaben gibt es systematische Verzerrungen zugunsten der
Sprachgruppen, aus der die Aufgaben stammen.
In Summe bewirkt die Dominanz englischsprachiger Aufgaben einen
deutlichen Vorteil für englischsprachige Schüler,
was die Autoren mit Hilfe eines ungerechtfertigten Nullhypothesentests
herunterspielen.
Über die Benachteiligung von Ländern, die gar keine Aufgaben
beigetragen haben, lässt sich mit der hier gewählten Methodik
ebensowenig eine Aussage treffen, wie über Verzerrungen
zugunsten bestimmter Sprachgruppen,
die in endogenen und übersetzten Aufgaben gleichermaßen wirken. |
|
|
| |
Abstract (en,de,fr,it)
|
Bain D (2003) Pisa et la lecture: un point de vue de didacticien. Revue suisse des sciences de l'éducation 25 (1) 59–78.
|
"... it is important to examine the validity — and thus the interest
— of such an operation from the didactical point of view.
We leave it to others to defend the positive aspects of this programme,
seeking here only to highlight the limits of it's usefulness for didactics —
perhaps even the obstacles which this type of investigation might erect
with respect to current efforts to improve the teaching of reading.
We will conclude by asking about the secondary effects of the study
and whether the effort is worth the investment." |
|
|
| |
Contents
|
Bank V (ed.) (2005) Vom Wert der Bildung. Bildungsökonomie in wirtschaftspädagogischer
Perspektive neu gedacht. Bern: Haupt.
|
PISA is discussed in particular in the chapter by Radtke 2005. |
|
|
| |
|
Bank V (2008) Vom Wert des Vergleichs. Chemnitzer Europastudien 8, 257-274
|
"Im synchronen Systemvergleich der PISA-Studien wird noch nicht einmal
überlegt, wo eventuelle Systemgrenzen zu ziehen wären.
Hier gilt einzig die administrative Grenze als relevant, und doch
wird in den Publikationen 'Deutschland' in die Rangfolge
gebracht, nicht die einzelnen Bundesländer.
Es geht an einer rein binnensystemischen Veränderung kein Weg vorbei.
Jede melioristische Idee, welche die Veränderung von systemischer
Binnenkomplexität unmittelbar aus der Andersartigkeit 'erfolgreicherer'
Systemordnungen ableiten will, argumentiert in keiner
wissenschaftlich haltbaren Weise, sondern willkürlich...
Die Bildungssystemverbesserer schert solch strukturalistisches
Gedankengut offenbar wenig... Die Dritten Mittel fließen in Strömen,
das Geschäft boomt, weil die politische Klientel der Bildungsforscher
in Panik ist... Insgesamt sind das nicht weniger als 20,30 Mio. EUR,
die der Steuerzahler für die Vergleichsstudien bis einschließlich 2006
aufbringen musste...
Verbesserungsvorschläge lassen sich dem Projekt, wie hier mit einfachen
Mitteln angedeutet, kaum entnehmen. Dass ein Verfall der Leistungen,
zumindest aber eine Verlagerung der Leistungsfähigkeit der Jugend
von formalen Leistungsaspekten wie Rechnen und Rechtschreibung hin zu
einer selbstbewussten Selbstdarstellungsfähigkeit wenigstens über die
letzten 30 Jahre stattgefunden hat, hätte man sicherlich von jeder
erfahrenen Sekundarstufenlehrkraft durch einfaches Nachfragen
in Erfahrung bringen können...
Wer aber meint, aus den Ergebnissen der Studie ließe sich irgendeine
bildungspolitische Maßnahme legitimieren, erreichte für die
Verbesserung der Erziehungssysteme mehr, indem das Steuergeld statt
für die Beschäftigung von Wissenschaftlern für die Schüler selbst,
etwa in Form neuer Schulbücher, ausgegeben würde — jedenfalls dann,
wenn ernsthaft Interesse an einer besseren Erziehung der Jugend
bestünde." |
|
|
| |
|
Bank V (2009) Aufstieg durch Bildung — oder "Erziehung als Therapie der Gesellschaft" Pädagog. Rundschau 63, 123-140
|
"Dabei sind doch deutsche Schülerinnen und Schüler definitionsgemäß
besser als der Rest der Welt — wenn nicht, muß 'das System' versagt
haben. Übergeht man die vielfältige Kritik, die die internationalen
Vergleichsstudien in methodologischer Sicht auf sich gezogen haben,
überrascht an diesem Szenario, daß noch niemand gefragt hat,
wieviel von einer 1945 offiziell abgeschafften Überlegenheitsideologie
des 'Deutschen an sich' im bildungspolitischen Skandal der deutschen
Durchschnittlichkeit tatsächlich steckt." |
|
|
| |
|
Bank V, Heidecke B (2009) Gegenwind für PISA. Ein systematisierender Überblick über
kritische Schriften zur internationalen Vergleichsmessung, Vierteljahresschrift für Wissenschaftliche Pädagogik 85(3), 350-361
|
|
| |
|
Baumert J, Stanat P, Watermann R (Hrsg.) (2006) Herkunftsbedingte Disparitäten im Bildungswesen:
Differenzielle Bildungsprozesse und Probleme der Verteilungsgerechtigkeit.
Vertiefende Analysen im Rahmen von PISA 2000. Wiesbaden: VS Verlag für Sozialwissenschaften
|
Die "Befunde sprechen in aller Deutlichkeit gegen das in PISA 2003
gewählte Vorgehen einer Indexbildung für die soziale Herkunft."
[Vorwort]
In den Analysen und Interpretationen der OECD finden sich geradezu
lehrbuchhafte Musterbeispiele "für die beiden am häufigsten anzutreffenden
Fehlspezifikationen bei der Modellierung von Kompositionseffekten."
[Baumert/Stanat/Watermann, S. 120] |
|
|
| |
|
Baumert J, Brunner M, Lüdtke O, Trautwein U (2007) Was messen internationale Schulleistungsstudien? —
Resultate kumulativer Wissenserwerbspro-zesse. Psychol. Rundsch. 58 (2) 118–128.
|
|
| |
|
Bender P (2005) PISA, Kompetenzstufen und Mathematik-Didaktik. J. Math.-did. 26 (3/4) 274–281.
|
Defends Meyerhöfer 2004b against D. Lind et al. 2005.
"Colleagues who are devoted to the PISA test paradigm seem to assume
that a large part of the critique from outside is based on
misunderstandings. In the article I will discuss this problem
along the concept of 'level of competency' as it was developed
by the German chapter of the mathematics division of PISA." |
|
|
| |
Online
|
Bender P (2005) Neue Anmerkungen zu alten und neuen PISA-Ergebnissen und -Interpretationen. Vortrag auf der Bundestagung
der Gesellschaft für Didaktik der Mathematik, Bielefeld, 1. März 2005.
|
"Man kann und muss TIMSS, PISA und IGLU ganz grundsätzlich erkenntnis-
und wissenschaftstheoretisch kritisieren ...
Man kann und muss sich die einzelnen Aufgaben vornehmen
und die vielen Mängel aufspießen ... Auch bei Test-Design
und -Durchführung gibt es zahlreiche Probleme.
Besonders wichtig sind die gesellschafts-, wirtschafts- und
bildungspolitischen Bedingungen, Implikationen usw.,
die in den Berichten und Analysen angesprochen werden,
und diejenigen, die nicht angesprochen werden.
Ich habe alle diese Gesichtspunkte immer auch in den Blick genommen,
einen Schwerpunkt aber darauf gelegt,
hart an den PISA-Daten und -Konstrukten selbst zu argumentieren,
weil ich meine, dass dabei niemand mehr mit dem Argument ausweichen kann,
man ginge nicht wirklich auf PISA usw. ein.
Dabei mache ich wohl oder übel eigentlich unzulässige Vergleiche von
Punktzahlen u.ä. und Einordnungen in eigentlich ungeeignete bzw. schlecht
begründete Kategorien-Systeme mit. Es zeigt sich,
dass sich bereits da oft ganz andere Folgerungen ergeben und
Interpretationen aufdrängen, als von interessierter Seite in Medien,
Politik und Wissenschaft (!) verlautbart.
Die gröbsten Fehler und Missbräuche stammen weniger von den PISA-
(TIMSS-, IGLU-) Leuten. Allerdings sind diese mit ihrer gesamten
Öffentlichkeits-Politik nicht ganz unschuldig,
und wenn es nur deswegen ist, dass sie den vielen unzulässigen Schlüssen
nicht energisch genug (i.d.R. nämlich gar nicht) entgegentreten." |
|
|
| |
|
Bender P (2006) Was sagen uns Pisa & Co.,
wenn wir uns auf sie einlassen? pp. 281–337 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"The author discusses PISA, TIMSS and IGLU and shows
more or less hidden inconsistencies,
shaky argumentations, risky interpretations, and obvious abuse. He
reasons directly on the constructs and data of the studies.
From a mathematic-didactical point of view, the competence-stage-model of PISA
and other comparative studies have enormous errors.
It is not suitable to describe
both, personal and content-relevant competence stages,
and it is, moreover, unsuitable
for the integration of both scales.
PISA's ignorance of the national curricula is questionable.
However the test does not show any validity even for the concept
of 'mathematical literacy',
which should substitute for the national curricula issue,
since, for the majority of the exercises,
this competence is either not necessary or even obstructive.
Several mathematical didactic standards are violated to fit the
characteristics of the exercises into the theoretical test model.
Particularly in Germany, the PISA results were abused by political and media
elites in order to manipulate public opinion and to serve certain ideologies.
PISA shares responsibility for such abuse in two ways.
On the one hand there is no official objection against such abuse,
and on the other, a biased definition and selection
of parameters even furthers the abuse.
Especially the influence of the migrations
structure is systematically underestimated in favour of an undifferentiated
'social' structure.
PISA and other comparative studies neglect the level of performance orientation
in different societies, although this has much more influence on the results
than most of the studie' 'measured' parameters. In particular, PISA and other
comparative studies do not offer any results about the suitability of
structured or non-structured school systems, yet conclude,
for example, that — upon examination of the migration structure
according to PISA points system — Bavaria is among the
leading countries in the world." |
|
|
| |
|
Bender P (2008) Kann man soziale Durchlässigkeit mit Pisa messen? Das Gymnasium in Bayern 11/2008, 18–22.
|
|
| |
Online
|
Blanke I, Böhm B, Lanners M (2004) Beispielaufgaben und Schülerantworten. Le Gouvernement du Grand-Duché de Luxembourg.
Ministère de l'Education nationale et de la
Formation professionelle.
|
Als einziges Land hat Luxemburg einige Schülerantworten
eingescannt und veröffentlicht. Die Beispiele zeigen,
dass die Schüler nicht selten die Intentionen der Prüfer missverstehen
und manchmal malen, statt gegen die Uhr zu arbeiten. |
|
|
| |
|
Blum A, Guérin-Pace F (2000) De Lettres et des Chiffres.
Des tests d'intelligence à l'évaluation du »savoir lire«,
un siècle de polémiques. Paris: Fayard.
|
Detailed critique of another OECD study
(International Adult Literacy Survey). |
|
|
| |
Online
|
Bodin A (2005) What does PISA really assess? What it doesn't? A French view Joint Finnish-French Conference
"Teaching mathematics: beyond the PISA survey",
Paris 6-8.10.2005.
|
This paper is focused "on the external validity
issue of its mathematics questions.
First it seeks to position the PISA item contents
against the French mathematical syllabus, trying to
identify the overlap of them both.
Then it tries to compare the PISA mathematical cognitive
demands and competency levels with
those implied in some French assessment and examination settings.
Underlining some differences between the general PISA design
and the French mathematical curriculum and school culture,
it also tackles the PISA mathematical items epistemological and
didactical validity issues." |
|
|
| |
|
Bodin A (2007) What does PISA really assess? What it doesn't? A French view pp. 21–55 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
Revised version of Bodin 2005. "Der Beitrag konzentriert sich auf die Analyse der externen Validität der Mathematik-Items. Indem
PISA-Fragen französischen Assessment-Items gegenübergestellt werden, sollen Überschneidungen,
kognitive Voraussetzungen und Unterschiede in den Kompetenzlevels veranschaulicht werden.
Dabei zeigt sich, dass PISA und die französischen Tests zum Teil Unterschiedliches messen, und
PISA damit nicht den dort angestrebten Zielen entspricht. Hervorgehoben wird aber auch der Beitrag
von PISA zur Weiterentwicklung der Forschung." |
|
|
| |
Online
|
Boe E E, May H, Boruch R F (2002) Student Task Persistence in the Third International Mathematics and Science
Study: A Major Source of Achievement Differences at the National,
Classroom, and Student Levels. Report CRESP-RR-2002-TIMSS1.
Philadelphia: Pennsylvania University.
|
Student engangement
in providing answers to the background questionnaire is a strong
predictor for achievement in the main test. This implies that
test-taking ability and motivation are decisive factors that
easily outweigh the specific competences that ought to be measured.
"A question can be
raised about how much can be learned about the educational
determinants of student achievement by comparative research." |
|
|
| |
|
Bonnet G (2002) Reflections in a Critical Eye:
on the pitfalls of international assessment. Assessment in Educ. 9 (3) 387–399.
|
Critical review of PISA 2000.
"A pedagogical approach,
by closely analysing national performances in relation to specific skills,
by trying to understand why some skills are better mastered in some
countries, by reflecting on the question of errrors,
would certainly have been more informative than constructing
macro indicators which can only be interpreted from the point of view
of country rankings." |
|
|
| |
Online
|
Bottani N, Vrignaud P (2005) La France et les évaluations internationales. Rapport établi à la demande du Haut Conseil de l'évaluation de l'école
(166 pages).
|
In a study like PISA,
there is an inherent conflict between political and scientific interests.
Science must differentiate, politics requests simple answers.
PISA's focus on one-dimensional ranking is serving politics,
not science. It makes the study vulnerable to cultural bias. |
|
|
| |
|
Bozkurt D, Brinek G, Retzl M (2007) PISA in Österreich: Mediale Reaktionen, öffentliche Bewertungen
und politische Konsequenzen pp. 321–362 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Mithilfe einer Medienanalyse werden die öffentlichen und politischen Reaktionen in Österreich auf
die PISA-Ergebnisse aus den Jahren 2000 und 2003 dargestellt. Dabei stellt sich heraus, dass sich
die Reaktionen aus den beiden Jahren sowohl inhaltlich als auch quantitativ erheblich voneinander
unterscheiden. Außerdem zeigt sich, dass ungeachtet dessen, was PISA eigentlich zu leisten vermag,
höchst widersprüchliche Schlussfolgerungen und politischen Absichten mit PISA untermauert
werden. Es scheint so, als könne jeder aus Politik, Wirtschaft, Kultur, Bildung etc. seine
Überzeugungen in der PISA-Studie bestätigt finden." |
|
|
| |
|
Bracey, G W (2005) RESEARCH: Put out over PISA Phi Delta Kappan, vol. 86
|
"I have been dismayed at the uncritical acceptance of international
comparisons in this country [the U.S.A.].
It seems to me that otherwise competent researchers and psychometricians
abandon all critical facilities when dealing with data from the
International Association for the Evaluation of Educational Achievement
– the TIMSS studies and PIRLS —
or the Organisation for Economic Co-operation and Development — PISA.
They go gaga." |
|
|
| |
|
Bracey, G W (2006) Reading Educational Research,
How to Avoid Getting Statistically Snookered.
Portsmouth NH: Heinemann.
|
"Principles of Data Interpretation:
5. Be sure the rhetoric and the numbers match.
7. Beware of simple explanations for complex phenomena.
13. Do not confuse statistical significance and practical significance.
14. Make no causal inferences from correlation coefficients.
15. Any two variables can be correlated.
The resultant correlation coefficent might or might not be meaningful.
20. Standardized norm-referenced tests will ignore and obscure
everything that is unique about a school.
21. Scores from standardized tests are meaningful only to the extent
that we know that all children have had a chance to learn the
material which the test tests.
23. If a situation really is as alleged, ask: 'So what?'" |
|
|
| |
Online
|
Bracey, G W (2007) A Test Everyone Will Fail The Washington Post, Thursday, May 3, 2007, Page A25
|
The Government Accountability Office; the National Academy of Sciences; the National Academy of Education; and the Center for Research on Evaluation, Student Standards and Testing: "All those august organizations have rejected the NAEP achievement levels because the process is confusing to the people who try to set the levels and because the results are inconsistent: Children can't answer questions they should be able to and can answer questions they shouldn't be able to. The levels also give what the National Academy of Sciences called 'unreasonable' results... Recently, Zbigniew Brzezinski wrote in The Post that constant references to a 'war on terror' 'stimulated the emergence of a culture of fear. Fear obscures reason, intensifies emotions and makes it easier for demagogic politicians to mobilize the public on behalf of policies they want to pursue.' Happens all the time in education. The most recent phony alarm comes from Eli Broad and Bill Gates, who are putting up $60 million hoping to 'wake up the American people.' If the fear-mongers can scare you sufficiently (how many times have you heard the phrase 'failing schools' in the past five years?), you might permit them to do to your public schools things you would otherwise never allow." |
|
|
| |
Online
|
Bracey, G W (2008) The Leaning (Toppling?) Tower of PISA:
Facts and Doubts about International Comparisons in Education. Dissent Magazine, August 21, 2008.
|
|
| |
Online (restricted)
|
Braun H, Zhang J, Vezzu S (2010) An Investigation of Bias in Reports of the National Assessment of
Educational Progress. Educational Evaluation and Policy Analysis (in press)
|
"This article investigates plausible explanations for the observed
heterogeneity among jurisdictions in the exclusion rates of students
with disabilities and English language learners in administrations
of the National Assessment of Educational Progress (NAEP)...
The conclusions are that for many states there is a strong likelihood
of bias in the results reported and that neither the current NAEP
procedure nor the full-population estimates methodologies constitute
an ideal solution to the problem." |
|
|
| |
Online
Homepage
|
Brügelmann H (2008) Fieber genau zu messen ist noch keine Diagnose,
Fieber erfolgreich zu senken keine Therapie.
Wie Leistungstests in ihren Leistungsmöglichkeiten durch PISA & Co
überfordert werden. Beitrag zum Forum "Schule ist mehr als PISA —
Zur Bedeutung reformpädagogischer Ansprüche an die schulische Bildung
von heute" der ZEIT-Stiftung in Hamburg am 6./7. März 2008.
|
|
| |
|
Brüsemeister T, Eubel K-D (eds.) (2008) Evaluation, Wissen und Nichtwissen. Wiesbaden: VS Verlag für Sozialwissenschaften.
|
"Eine auf Evaluation basierende Steuerung impliziert die Annahme,
zu einem 'mehr' and Wissen zu gelangen und so Bildungssysteme
besser steuern zu können.
Dieser Frage gehen die Autoren des Bandes nach — ebenso wie der Frage,
ob das vermehrte Wiessen auch mit vermehrtem Nichtwissen einhergeht ..." |
|
|
| |
|
Cannell J J (1988) Nationally Normed Elementary Achievement Testing in
America's Public Schools: How All 50 States Are Above
the National Average Educational Measurement: Issues and Practice 7 (2) 5-9.
|
Discovery of the "Lake Wobegon effect":
Over the years, test scores tend to increase.
"Increased achievement is by no means the whole explanation
for this finding."
See also:
- Vol. 7 issue 4, with commentaries by representatives
of major test publishers
and officials in the U.S. Department of Education,
and a response by Cannell.
- An extended report by Cannel from 1989.
- A summary in the New York Times
(online).
|
|
|
| |
|
Carroll J B (1987) The National Assessments in Reading:
Are We Misreading the Findings? Phi Delta Kappan 68, 424–430.
|
At the age of fifteen, the capacity of abstract reasoning
is still in development. |
|
|
| |
Online
|
von Collani E (2001) OECD PISA - An Example of Stochastic Illiteracy? Economic Quality Control 16 (2) 227–253.
|
Review of the first PISA reports,
from a statistician's point of view. |
|
|
| |
Online
|
DESCO [Direction générale de l'Enseignement scolaire
Ministère de l'Éducation nationale, France] (2003) Évaluation des connaissances et
des compétences des élèves de 15 ans:
questions et hypothèses formulées à partir de l'étude de l'OCDE. Rencontres de la DESCO, 31 mai 2002.
|
Hinweis eines französischen Regierungsbeamten,
dass man aus den Kontextdaten keine verlässlichen Schlüsse ziehen könne,
wie schwer man bei der OECD Gehör finde und wie opak
die Entscheidungsprozesse seien. |
|
|
| |
|
Dolin J (2007) PISA — an Example of the Use and Misuse of Large-Scale Comparative Tests pp. 93–125 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Der Beitrag zeigt, dass die Entscheidung für oder gegen einen bestimmten technischen Aspekt oder
ein bestimmtes Verfahren unvermeidlich Teil des zugrunde liegenden Wertesystems einer Evaluationsstudie
ist. PISA ist also kein neutraler Test objektiver Fähigkeiten, sondern beinhaltet die Entscheidung
für einen bestimmten, wenigstens in Dänemark sehr umstrittenen Typus von Bildung.
Gleichzeitig weist der Autor darauf hin, dass PISA einerseits ein großes Potential in sich birgt, das
es weiter zu entwickeln gilt, andererseits eine Studie dieser Art niemals fähig sein kann, ein
Bildungssystem in seiner ganzen Fülle zu beschreiben." |
|
|
| |
Kurzfassung
|
Ebenrett H J, Hansen D, Puzicha K J (2003) Verlust von Humankapital in Regionen mit hoher Arbeitslosigkeit. Aus Politik u. Zeitgesch. B 06-07, 25-31.
|
"Unsere Befunde legen nahe, den fast ausschließlich bildungspolitischen Ansatz bei der öffentlichen Ursachenforschung für das schlechte Abschneiden deutscher Schüler im PISA-Vergleich zu relativieren und durch Determinanten der wirtschaftlichen Situation zu erweitern. Insbesondere sprechen die Ergebnisse dafür, in Arbeitslosigkeit und Abwanderung nicht weniger bedeutsame Bedingungsfaktoren für Schulleistungsunterschiede zu sehen als z.B. in Schulformen, Klassengrößen und sonstigen Rahmenbedingungen des Bildungs- und Ausbildungssystems." |
|
|
| |
Online
|
Fertig M (2004) What Can We Learn From International Student Performance Studies?
Some Methodological Remarks. RWI: Discussion Paper No. 23.
|
The interpretation of PISA results poses a severe identification problem.
Conclusions can only been drawn if "rather strong assumptions" are made.
"Different identification assumptions typically lead to
different results."
"Different studies on, for instance, the impact of school
ressources typically reach different conclusions even if
they utilize the same dataset." —
"Inference on the determinants of cognitive achievement" has to
invoke assumptions that are "obviously difficult to justify" ...
"Since the education systems of countries typically differ in
more than one aspect, it is impossible to identify the driving force
behind differences in country-specific fixed-effects."
Approximating family inputs by observable characteristics
is also not without problems.
Since the PISA study is only a cross-section,
"the problem of unobserved heterogenity is especially severe".
Using data on more than one country
requires the additional assumptions
that inherited abilities and student inputs are
equally distributed across countries. |
|
|
| |
|
Fischer G H, Molenaar I W (eds.) (1995) Rasch Models.
Foundations, Recent Developments, and Applications. New York: Springer.
|
Mathematisch solide Einführung in die Item-Response-Theorie. |
|
|
| |
Online
|
Flitner E (2006) Pädagogische Wertschöpfung.
Zur Rationalisierung von Schulsystemen durch public-privatepartnerships
am Beispiel von PISA. S. 245-266 in Jürgen Oelkers, u.a. (Hg.):
Rationalisierung und Bildung bei Max Weber.
Festschrift zur Emeritierung von Helmut Fend.
Bad Heilbrunn.
|
PISA is run by huge companies who serve — and create —
worldwide demand for all kind of tests...
By participating in PISA, German politicians give up souverainty
about what should be learned in German schools. |
|
|
| |
|
Foshay A W (ed.) (1962) Educational achievements of thirteen-year-olds in
twelve countries. Hamburg: UNESCO Institute for Education.
|
How it all began: One of the first international school assessments. |
|
|
| |
|
Frederiksen N, Mislevy R J, Bejar I I (Hrsg) (1993) Test Theory for a New Generation of Tests. Hillsdale: Lawrence Erlbaum.
|
Collection of essays. Among them a contribution by Mislevy,
at the time of writing an employee of the Educational Testing Service,
who says about the one-dimensional Rasch model:
"It is only a slight exaggeration to describe the test theory
that dominates educational measurement today as the application
of 20th century statistics to 19th century psychology.
Sophisticated estimation procedures ...
applied within psychological models that explain problem-solving ability
in terms of a single, continuous variable.
This caricature ... falls short for placement and instruction problems
based on students' internal representations of systems,
problem-solving strategies, or reconfiguration of knowledge as they learn
...
Educational measurement faces today a crisis that would appear
to threaten its very foundations." |
|
|
| |
Online (restricted)
|
Freudenthal H (1975) Pupils achievements internationally compared — the IEA. Educational Studies in Mathematics 6, 127–186.
|
Sharp critique of one of the first international school studies.
Several points still apply to PISA: unequal enrollment rates,
the unsolved translation problem, lacking curricular validity,
reading items that contain deeper science than the science items,
overinterpretation of numerical outcomes,
Kafkaesk confusion in the documentation and in the underlying decisions,
dogmatic rejection of criticism. |
|
|
| |
|
von Freymann T (2003) Die finnische Schule - ein Modell für Deutschland ?
Zu den Ursachen der finnischen PISA-Ergebnisse. pp. 277–301 in:
Hansel 2003 (ed.):
PISA- und die Folgen ?
Die Wirkung von Leistungsvergleichsstudien in der Schule.
Herbolzheim: Centaurus.
|
Die finnischen PISA-Ergebnisse sind von Lappland bis Mittelfinnland
gleichmäßig, nur nicht für die Provinz Uusimaa mit dem Ballungsraum
Helsinki-Espoo-Vantaa. "Dort sind sie schlechter...
'mitteleuropäische Verhältnisse' bedeuten offensichtlich eine ungünstigere
Lernumwelt als althergebrachte finnische."
Die in Deutschland "weit verbreitete Vorstellung, dass finnische Schulen
mit Hilfe binnendifferenzierter Unterrichtsmethoden in sich
ausgesprochen heterogene Klassen auf ein relativ homogenes Leistungsniveau
brächten, entspricht also nicht der Realität. Die Schülerströme
in Ballungsräumen sortieren sich aufgrund der curricularen Profilierung,
des Fremdsprachenangebots und der freien Schulwahl so,
dass manche Schulen mehr oder weniger einem deutschen Gymnasium
entsprechen (und das schon ab Klasse 3, nicht etwa erst ab Klasse 5!),
andere eher der deutschen Hauptschule."
"Den Studiengang 'Lehramt' führen nur Universitäten, die über eine
'Übungsschule' in eigener Trägerschaft verfügen...
Künftige Klassenlehrer müssen alle Fächer studieren, die sie im
Schuldienst unterrichten werden... Das Prinzip der Fachkompetenz ...
bedeutet, dass der finnische Studiengang für das Lehramt 'Grundschule'
völlig anders angelegt ist der deutsche."
Der Unterricht ist "im Allgemeinen eher konservativ, d.h. lehrerzentriert,
handwerklich solide, aber keineswegs 'alternativ', 'kreativ',
'phantasievoll', wie es dem deutschen Wunschbild entspräche."
"Das wichtigste Merkmal finnischer Schulen ist ihre Kleinheit -
die drei Prozent, die über 500 Schüler haben, haben die PISA-Ergebnisse
gewiss nicht entschieden! - und die kulturelle Homogenität ihrer Klientel.
Irgend eine Art von 'Systemkopie' kann es darum nicht geben...
Zwei zentrale Elemente des finnischen Schulwesens vor allem könnten
hierzulande übernommen werden: ... Die Personalbesetzung und
die systematische Förderung der schwachen Schüler... Alle Maßnahmen,
die dazu führen, dass den Lehrkräften an deutschen Schulen weitere
unterrichtsfremde Aufgaben aufgebürdet werden... können auf Dauer
die Effektivität von Unterricht nicht erhöhen." |
|
|
| |
Online
|
Füller C (2007) Pisa hat einen kleinen, fröhlichen Bruder taz vom 5. 12. 2007.
|
Auf der Pressekonferenz,
in der die Ergebnisse von PISA 2006 vorgestellt wurden,
trat zutage, dass sich das deutsche PISA-Konsortium
und die OECD über die Interpretation ihrer Daten nicht
mehr verständigen können.
Die OECD droht damit,
der deutschen Ergänzungsstudie den Markennamen "PISA" zu entziehen. |
|
|
| |
Online (restricted)
|
Ganzeboom H B G, De Graaf P M, Treiman D J (1992) A Standard International Socio-Economic Index of Occupational Status. Soc. Sci. Res. 21 (1) 1–56.
|
PISA's measure of students' socio-ecomonic background is
based on this incredibly shallow compilation. |
|
|
| |
|
Gellert (2006) Mathematik "in der Welt" und mathematische "Grundbildung".
Zur Konsistenz des mathematikdidaktischen Rahmens von PISA. pp. 375–390 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"The PISA study wants to suggest that the construction of test exercises and
the interpretation of results were provided with a solid footing on a consensual
mathematic-didactical theory foundation in the scientific community. The test exercises
operationalized standardization of mathematical basic education without an
alternative, which was derived from allegedly uncontentious foundations of mathematical
didactics. The chapter discusses the extent the single components of this
construct fit, substitute for, or contradict with one another with regard to the doubtful
compatibility with the works by Hans Freudenthal about mathematical didactical
phenomenology and the idea of a 'mathematical basic education' in the framework
of the PISA study." |
|
|
| |
Online
|
Giesecke H (2004) Wer braucht (noch) Erziehungswissenschaft? Neue Sammlung (2)151-165
|
"Je besser die Erziehungswissenschaft sich als moderne Wissenschaft
entfaltet, um so entbehrlicher scheint sie als Berufswissenschaft
zu werden. Ihre Bedeutung für das Handeln der in der pädagogischen
Praxis Tätigen und für die Ausbildung derjenigen, die dort künftig
wirken werden, ist umstrittener denn je. Längst ist von 'zwei Kulturen'
die Rede, die immer mehr auseinander driften und sich immer weniger
zu sagen haben...
Zur Zeit steht die empirische Bildungsforschung in hohem Ansehen,
was in erster Linie der öffentlichen Debatte über die PISA-Studien
zu verdanken ist. Mit deren Ergebnissen und mit denen weiterer
Forschungen dieser Art sind jedoch Erwartungen verbunden, die aller
Voraussicht nach enttäuscht werden müssen...
|
|
|
| |
|
Goldstein H, Wood R (1998) Five decades of item response modelling Brit. J. Math. Statist. Psychol. 42, 139–167.
|
A historical and theoretical review
"of so called item response theory,
more accurately described as item response modelling."
Looking back at 50 years, "a disappointing lack of advance" is found. |
|
|
| |
Preprint
|
Goldstein H (2004) International comparisons of student attainment:
some issues arising from the PISA study. Assessment Educ. 11 (3) 319–330.
|
"The article comments on the restricted nature of the data modelling
and analysis, and resulting interpretation." |
|
|
| |
Online (restricted)
|
Goldstein H, Bonnet G, Rocher T (2007) Multilevel Structural Equation Models for the Analysis
of Comparative Data on Educational Performance J. Educ. Behav. Stat. 32 (3) 252–286.
|
Critical re-analysis of PISA 2000 reading data.
"The combination of different ages of starting school and different
allocation to year groups on the basis of birth date and repetition
of grades makes any meaningful comparison extremely difficult...
even within a single proficiency domain, the data
structure appears to contain at least two dimensions...
even in the onedimensional
case, the (Rasch) assumption of equal item loadings is not supported
by the data." |
|
|
| |
Online
|
Goldstein H (2008) Comment peut-on utiliser les études comparatives internationales
pour doter les politiques éducatives d'informations fiables ? Revue française de pédagogie 164, 69-76.
|
Short review of many different problems of PISA&Co. |
|
|
| |
Online (restricted)
|
Grek S (2009) Governing by numbers: the PISA 'effect' in Europe J. Educ. Policy 24 (1) 23–27.
|
"This paper examines the Programme for International Student Assessment (PISA), which has become a major and influential component of the Organisation for Economic Cooperation and Development's (OECD) educational work. This measure of comparative performance of educational systems of member and other nations is based on tests commissioned by the OECD. The paper discusses the role of the OECD in establishing the 'comparative' turn and also describes PISA, its management and effects. It provides three examples of the impact of PISA in Finland, Germany and the UK before moving the focus to its impacts at the transnational level, through an examination of how key European policy actors see PISA and its effects. The paper concludes that PISA, through its direct impact on national education systems in Europe and beyond, has become an indirect, but nonetheless influential tool of the new political technology of governing the European education space by numbers...
Responsiveness to PISA across the different participating nations and by other IOs
can be seen as an instance of what Luhmann has called 'externalisation'.
That is, the reference to 'world situations'
enables policy-makers to make the case for education reforms at home that
would otherwise be contested.
Thus local policy actors are using PISA as a form of
domestic policy legitimation, or as a means of defusing discussion by presenting
policy as based on robust evidence...
Moreover,
the construction of PISA ... has powerful effects on curricula and pedagogy
in participating nations." |
|
|
| |
|
Hagemeister V (1999) Was wurde bei TIMSS erhoben?
Über die empirische Basis einer aufregenden Studie. Die Deutsche Schule 91 (2) 160–177.
|
Kritik an den Naturwissenschaftsaufgaben,
gestützt auch auf Schülerinterviews.
Die Aufgaben sind oft unpräzise formuliert, schlecht übersetzt
und nicht frei von Vokabelfehlern.
Fehlende Test-Routine bewirkt erhebliche Verzerrung;
es ist "unübersehbar", dass die Aufgaben
"die Schulrealität in Nordamerika widerspiegeln". |
|
|
| |
|
Hagemeister, V (2006) Kritische Anmerkungen zum Umgang mit den Ergebnissen von PISA. pp. 339–374 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"This chapter contradicts the usual educational-political and didactical conclusions
taken from the PISA test and similar comparative studies. The author argues in
favour of smaller classes, particularly for children who lack educational support at
home. He appeals for a relief for teachers from therapies of specific learning disabilities
and urges for changes in examination requirements for systems with shortened
course terms. He reasons against central examination with relevance of marks and
demands state supported full-day school care programs, particularly for children
with certain social indications. He suggests target oriented language support of
migrants by specialized teachers, parallel to the regular school curriculum." |
|
|
| |
Online
|
Hagemeister, V (2007-) Falsche Akzente in der von PISA ausgelösten bildungspolitischen Diskussion.
|
Webseite mit Texten, Tabellen und Verweisen; eigene Auswertungen
der PISA-Daten: "Die unterschiedliche Herkunft und Anzahl der
Immigranten wurde unzureichend berücksichtigt ...
Die PISA-Mittelwerte sagen viel über die Ausländerpolitik,
fast gar nichts über Schulsysteme aus ...
Aus Querschnittsdaten [können] keine wissenschaftlich
fundierten Aussagen über die Wirkung der Klassenfrequenz
gewonnen werden". |
|
|
| |
|
Haladyna T M, Nolen S B, Haas N S (1991) Raising Standardized Achievement Test Scores and
the Origins of Test Score Pollution. Educ. Researcher 20 (5) 2–7.
|
Test score pollution "increases or decreases test performance
without connection to the construct represented by the test,
producing construct-irrelevant test score variance. ...
There is reason to believe that the problem of test score pollution
is pervasive in American education." |
|
|
| |
|
Hambleton R K, Swaminathan H, Rogers H J (1991) Fundamentals of Item Response Theory. Newbury Park: Sage.
|
Um die Modellgültigkeit der Item-Response-Theorie zu überprüfen,
sollte man sich nicht auf automatisierte statistische Tests
verlassen, sondern vor allem die Item-Charakteristiken
visuell beurteilen. |
|
|
| |
|
Hansel T (ed.) (2003) PISA- und die Folgen ?
Die Wirkung von Leistungsvergleichsstudien in der Schule. Herbolzheim: Centaurus.
|
|
| |
Buchhandel Book site
|
Hopmann S T, Brinek G, Retzl M (eds.) (2007) PISA zufolge PISA — PISA According to PISA.
Hält PISA, was es verspricht? Does PISA Keep What It Promises? Reihe Schulpädagogik und Pädagogische Psychologie, Bd.6.
Wien: Lit-Verlag.
|
Collection with essays (part in German, part in English)
by
Allerup,
Bodin,
Bozkurt et al.,
Dolin,
Hopmann,
Jahnke,
Langfeldt,
Meyerhöfer,
Olsen,
Prais,
Puchhammer,
Sjoeberg,
Uljens,
Wuttke.
Preface by Olechowski. —
Aus dem Pressetext:
"Keine andere Bildungsforschung hat in den letzten Jahren soviel Furore gemacht wie PISA. In vielen
Ländern, besonders aber in Österreich und Deutschland, scheinen viele in Politik und Öffentlichkeit
anzunehmen, PISA sei eine unabhängige wissenschaftliche Bewertung der Leistungsfähigkeit
bzw. der Schwächen nationaler Bildungssysteme und könne nachweisen, woran das jeweilige
Schulwesen krankt. Dabei wird oft übersehen, dass nach dem Willen des Auftragsgebers OECD die
PISA-Studien in erster Linie politischen und nicht wissenschaftlichen Zwecken dienen, und dass
PISA ausdrücklich nicht darauf aufbaut, ob das, was gemessen wird, in der Schule überhaupt
gelernt werden kann oder soll.
In den letzten Jahren ist vereinzelt wissenschaftliche Kritik am Design und an der Durchführung
der PISA-Studien laut geworden. Bislang ist solche Kritik fast nie über den jeweiligen nationalen
Rahmen hinaus gedrungen und konnte deshalb leicht als lokal begrenzter Einzelfall ohne Bedeutung
für das Ganze abgetan werden. Eine umfassende Erwiderung auf diese Kritik hat es von Seiten
der PISA-Forschung bis jetzt nicht gegeben, aber auch keine Richtigstellung der chronischen Irreführung
der Öffentlichkeit.
Der vorliegende Band enthält wissenschaftliche Beiträge aus sieben europäischen Ländern, die
unabhängig Leistungen und Grenzen des PISA-Projekts analysieren. Gefragt wird, ob PISA methodologisch
den wissenschaftlichen Ansprüchen an international vergleichende Forschung gerecht
wird. Untersucht werden unter anderem Stichproben, auf die sich PISA stützt, Fragen, die PISA
stellt, sowie die Auswertung und schliesslich die Präsentation der Ergebnisse durch PISA selbst.
Ungeachtet der Verdienste der PISA-Forschung ist das Ergebnis ernüchternd. Es lässt sich in zwei
Hauptpunkten zusammenfassen:
- Was PISA misst, ist keineswegs repräsentativ für die jeweiligen Wissens- und Schulkulturen
und ist dies in der Regel nicht einmal in den Fachgebieten, die es selbst ausdrücklich
hervorhebt (wie Mathematik und Naturwissenschaften).
- Die konkrete Durchführung ist mit so vielen Schwachstellen, Unsicherheiten und Fehlerquellen
behaftet, dass die populären internationalen und nationalen (Schul-) Vergleiche
wissenschaftlich unhaltbar sind.
Zusammen genommen ergibt sich, dass PISA im besten Fall eine interessante Jugendstudie über die
mehr oder weniger zufällige Verteilung eines sehr testspezifischen Wissens in den beteiligten Ländern
ist. Wissenschaftliche Vergleiche der Leistungsfähigkeit der jeweiligen Bildungssysteme oder
gar einzelner Schulformen und Schulen lassen sich so nicht begründen.
PISA hält nicht, was PISA verspricht — und kann das in seinem Rahmen auch nie leisten!
Repräsentanten der PISA-Forschung in Österreich und Deutschland waren eingeladen, in diesem
Band zur vorgebrachten Kritik Stellung zu nehmen. Leider hat dieser Einladung niemand Folge
geleistet, vielleicht auch deshalb, weil selbst bei Widerlegung einzelner Punkte die öffentliche Aufmerksamkeit
sichernden nationalen und internationalen Rankings nicht zu retten gewesen wären." |
|
|
| |
Online
|
Hopmann S T, Brinek G (2007a) Introduction. PISA According to PISA — Does PISA keep what it promises? pp. 9–19 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Seit Veröffentlichung der ersten PISA — Ergebnisse haben sich auch einige kritische Stimmen zur
OECD-Studie zu Wort gemeldet. Allerdings blieb eine eingehende methodologische Debatte bisher
aus. Das Buch sammelt daher Beiträge zur methodologischen Kritik an PISA aus den unterschiedlichsten
Bereichen und Ländern. Als Ergebnis muss festgestellt werden, dass insbesondere die beliebten
nationalen und internationalen PISA-Vergleiche mit so vielen Unsicherheiten und Fehlerquellen
behaftet sind, dass sie wissenschaftlich gesehen so gut wie unbrauchbar sind. Abschliessend
wird der Umgang der PISA-Konsortien mit Kritik diskutiert ..." |
|
|
| |
|
Hopmann S T (2007b) Epilogue: No Child, No School, No State Left Behind:
Comparative Research in the Age of Accountability pp. 363–415 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Im Schlusskapitel wird die Frage gestellt, warum und unter welchen Bedingungen das Projekt PISA
Erfolg haben konnte. Wie kommt es, dass in manchen Ländern die gesamte Bildungspolitik in den
'schiefen' Schatten von PISA gerät, während PISA andernorts nur eine Stimme unter vielen ist? Es
zeigt sich, dass es für die Leistungen und Schwächen des PISA-Projektes gute historische und aktuelle
Gründe gibt. PISA hat — wie es scheint — den meisten Erfolg mit dem, wozu es am wenigsten
taugt, nämlich mit seinen methodisch unhaltbaren nationalen und internationalen Vergleichen der
Leistungsfähigkeit der jeweiligen Bildungssysteme." |
|
|
| |
|
Hörmann B (2007) Disappearing Students. PISA and Students With Disabilities pp. 157–174 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Die Autorin bringt das Problem der systematischen Marginalisierung von Kindern mit Behinderung
zur Sprache, das auch im Kontext von PISA tragend wird. Die Tests ergeben ein verzerrtes Bild,
wenn Kinder mit Behinderungen (gleich welcher Art) ungleich berücksichtigt werden. Es wird
dabei gezeigt, wie wenig dieses Problem in Europa und auch in Österreich überhaupt beachtet wird,
obwohl es durchaus Möglichkeiten und Wege gäbe, Kinder mit speziellen Bedürfnissen in die
Testung mit einzubeziehen und ihre Leistungen adäquat zu messen." |
|
|
| |
|
Jablonka E (2006) Mathematical Literacy:
Die Verflüchtigung eines ambitionierten Test-Konstrukts
in bedeutungslose PISA-Punkte. pp. 247–280 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"The chapter investigates whether the students' PISA scores in
mathematical literacy
can be considered to be empirical evidence of the construct described in the
theoretical framework of the study.
Given the nominal definition of mathematical literacy,
how were the test items developed
or chosen? Is the theoretical framework consistent? Is the use of the scaling
model justified,
which implies assumptions on the structure of the competency to be
measured?
It emerges that the global and vague definition
of mathematical literacy loses its
meaning through its operationalization in the form of PISA test items. Scaling
[the scores] using a model from
the most probable testing theory proved itself to be
unsuitable. The scaling model is based on assumptions which are not suggested
either by the definition
of the construct or by the type of items used within mathematical
basic education described in the theoretical framework. However, the model
is maintained despite its theoretical and empirical inconsistencies in PISA.
Consequently,
the student scores do not have well-founded interpretation and do not
allow for drawing conclusions about interrelationships with other data generated
by the study." |
|
|
| |
Buchhandel
|
Jahnke T, Meyerhöfer W (eds.) (2006, revised 2nd edition 2007) PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.
|
|
| |
|
Jahnke T (2006) Was sagen uns Pisa & Co.,
wenn wir uns auf sie einlassen? pp. 1–23 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"The author critically discusses PISA and other comparative studies
as positivistic and flawed interpretations of the world,
lacking in new insights. He shows theoretical and methodical errors in
TIMSS and PISA and reflects on the possible motivations of its researchers.
He compares the concept of mathematical education (which he sees
as a means of gaining formal insights and also as a methodological process)
and prevailing educational standards and argues against the predominance
of practical usage." |
|
|
| |
|
Jahnke T (2007a) Deutsche Pisa-Folgen pp. 305–320 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"In diesem Beitrag werden die Folgen von PISA in Deutschland, vor allem in Bezug auf die Beschlüsse
der deutschen Kultusministerkonferenz zum Bildungsmonitoring und zu den nationalen
Bildungsstandards in Mathematik thematisiert. Unter Einbezug amerikanischer Forschung wird die
Einführung eines umfassenden Bildungsmonitorings in Deutschland als Gefahr der Etablierung
einer 'Teaching-to-the-Test'-Kultur kritisiert. Zudem werden beispielhaft einzelne, am PISA-Vorbild
orientierte Aufgaben der Bildungsstandardtests einer Analyse unterzogen. Es zeigt sich,
dass der Großteil der Aufgaben didaktisch unsachgemäß und zum Teil direkt fehlerhaft konstruiert
ist. Allerdings sei fraglich, so der Autor, ob selbst eine fundamentale methodologische Kritik die
Geltungsmacht von PISA in Deutschland und deren Einfluss auf die gegenwärtige Bildungspolitik
erschüttern könne.
" |
|
|
| |
Online
|
Jahnke T (2008) Pisa ist ein Zufallsgenerator. Die Welt, 15. 12. 2007.
|
"Mal langsam: Hier werden in einem 120-minütigen Test,
der sich auf wenigstens drei Schulfächer bezieht,
die Leistungen ... auf ein Hundertstel genau 'interkulturell' gemessen,
ohne dass man sich um die Befindlichkeit der Schüler,
ihre Bereitschaft, den Test ernst zu nehmen,
ihre Vertrautheit mit Ankreuzaufgaben,
ihren Lehrplan oder die Praktiken der beteiligten Länder
bei der Auswahl und dem Ausschluss von Schulen und Schülern,
die Qualität der Aufgaben und ihrer Übersetzungen schert
und Aufschluss über die eingesetzten statistischen Verfahren gibt,
die solche Wunderpräzision ermöglichen sollen.
Und die Resultate werden in Deutschland geglaubt,
als kämen sie nicht aus Paris, sondern aus Rom." |
|
|
| |
|
Jahnke T (2008) Die PISA-Unternehmer Forschung & Lehre, 15, 26–27
|
"So profitiert etwa die empirische Bildungsforschung
nahezu unmäßig von dieser Mutter aller Tests.
Man kann in diesem Bereich geradezu von
einer Überhitzung der Konjunktur sprechen.
Seitenweise werden Professuren in dieser Disziplin ausgeschrieben.
Man fragt sich, was diese Armada in den nächsten Jahrzehnten
ihrer Berufstätigkeit,
so sie nicht über diesen Horizont hinauswachsen,
alles wird messen." |
|
|
| |
|
Keitel C (2006) Der (un)heimliche Einfluss der Testideologie. pp. 25–58 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"The chapter first demonstrates, based on a short history of testing,
that although test methods have been contiuously, formally, refined,
and their administration improved and simplified enormously —
particularly by means of using computers — no substantial change
or development in the basic approach of testing has been established.
The implicit preliminary assumptions and prejudices have remained
the same. The lack of theoretical proof and obvious discrepancies
were not eradicated, but only appear more obscure. Still, the functional
purposes served by the latter are the same. The preliminary assumptions
and social dimensions of testing are discussed and the consequences for
mathematical education are shown. The problem will be particularly
identified for the PISA construct of 'Mathematical Literacy'." |
|
|
| |
Online
|
Kießwetter K (2002) Unzulänglich vermessen und vermessen unzulänglich: PISA u. Co. Mitt. Dtsch. Math.-Ver. (4) 49–58. Mit freundlicher Genehmigung
des Autors und der DMV auch in unserem Archiv.
|
"Das Hauptanliegen meines Beitrags ist es,
handwerkliche Mängel in den Aufgabenstellungen bei PISA u. Co.,
Einseitigkeit und Unbedachtheit in der hinterlegten Ideologie von
gutem Mathematikunterricht und inbesondere prinzipiell unvermeidbare
Unzulänglichkeiten bei jedem derartigen Testdesign deutlich zu machen
und dadurch eine sachlich-detaillierende Diskussion über die
Wertigkeit der Ergebnisse auf den Weg zu bringen. Insbesondere
diejenigen Folgerungen aus den PISA-Ergebnissen,
welche Unterrichtspraxis zumindest für eine längere Zeit
irreversibel verändern könnten, dürfen erst dann gezogen werden,
wenn klar ist, was uns diese Ergebnisse fundiert sagen können und
zu sagen haben, — und was nicht!
Ein weiteres Anliegen besteht darin, zur Reflexion über
soziologische und psychologische Prozesse anzuregen,
welche als Erklärung dafür dienen können, daß in unserer
Mediengesellschaft immer wieder verkürzende Wissenschaftlichkeit
einen hohen Stellenwert hat,
während Überlegungen beiseite geschoben werden,
welche die hohe Komplexität der Vorgaben nicht simplifizierende
Modellierungen verfälschen — wie dies bei PISA u.a.
durch die besser/schlechter–Linearisierungen geschieht.
Es ist in diesem Zusammenhang zu fragen,
warum derartige Verhaltensweisen sich sogar in gewissen
wissenschaftlichen Bereichen ausbreiten —
wider das, was man als wissenschaftliches Ethos bezeichnen könnte." |
|
|
| |
Online
|
Klemm K (2006) Fünf Jahre nach dem PISA-Schock.
Interview mit WDR.de.
|
Klaus Klemm ist Mitglied im wissenschaftlichen Beirat von PISA.
In diesem Interview bezeichnet er ein wesentliches Element der Studie,
die Ranglisten, als ein "Spiel", und wirft einem Kritiker vor,
es sei ein Fehler, dieses Spiel mitzuspielen.
Wenige Sätze später jedoch spielt er selbst wieder mit
und bewertet einen bestimmten Rangplatz in einer speziellen Auswertung
als zentrales Ergebnis von PISA - ein Ergebnis, das im übrigen aus
der 2000er Runde stammt und zum Zeitpunkt des Interviews schon
überholt war. |
|
|
| |
Online
|
Klemm K (2008) Schulforscher, aufgepasst. DIE ZEIT, 15.05.2008 Nr. 21
|
"Manchmal stiften Untersuchungen wie die Pisa-Studie mehr Verwirrung, als dass sie Klarheit schaffen. Schuld daran sind auch die Wissenschaftler, die sie verfassen... Ein Beispiel für den irritierenden Umgang mit Definitionen ist der Gebrauch des Begriffs 'Risikogruppe'... Zum einen findet sich in den Veröffentlichungen der Pisa-Konsortien an keiner Stelle ein Hinweis darauf, wie sie zu der Grenzziehung gekommen sind, unterhalb derer sie junge Menschen der Risikogruppe zurechnen. Zum anderen verblüfft, dass diese Grenzziehung willkürlich wechselt... Nicht minder verwirrend sind die Indikatoren, die in den Pisa-Studien zur Darstellung des Zusammenhangs von sozialer Herkunft und Bildung angeboten werden."
Lesenswert auch die Antwort von Prenzel, Baumert und Klieme in
Nr. 23,
die ausdrücklich nur die deutsche Pisa-Studie verteidigen:
"Unklarheit stiften andere". Dagegen wiederum wehrt sich v. Meyer von der
OECD in Nr. 25:
"Noch ein falscher Verdacht". |
|
|
| |
|
Kohn A (2000) The Case Against Standardized Testing.
Raising the Scores, Ruining the Schools. Portsmouth NH: Heinemann.
|
Children in the U.S. "are tested to an extent that is unprecedented
in our history and unparalleled anywhere else in the world.
Politicians and businesspeople, determined to get tough with
students and teachers, have increased the pressure to raise standardized
test scores. Unfortunately, the effort to do so typically comes
at the expense of more meaningful forms of learning."
"First, beware of tests that are timed ... Second, you should worry
if tests are given frequently... Third, be prepared to protest if
tests are given to young children... Finally, look out for tests that are
'norm-referenced'. ... Norm-referenced tests (NRT) are not about
assessing excellence; they are about sorting students (or schools) into
winners and lossers. The animating spirit is not 'How well are they
learning?' but 'Who's beaten whom?' ... When specialists sit down
to construct an NRT, they're not interested in making sure the
questions cover what is most important for students to know. Rather,
their goal is to include questions that some test-takers —
not all of them, and not none of them — will get right.
They don't want everyone to do well on the test..."
"Standards aren't the main ingredient that's low in supply."
"Those allegedly being helped will be driven out."
Standardized tests are "not like the weather,
something to which we must resign ourselves...
They are not a force of nature but a force of politics —
and political decisions can be questioned, challenged, and ultimately
reversed." |
|
|
| |
Online
|
Köller O (2006) Kritik an PISA ist unberechtigt. Interview mit bildungsklick.de, 27. Nov. 2006.
|
"Die Kritik, die häufig geübt wird, funktioniert so, dass man sich eine oder ganz wenige Aufgaben als pars pro toto herausnimmt und daran die ganze Studie misst und schlecht macht. Man hat das Gefühl, dass diejenigen, die diese harte Kritik äußern, nicht genug vom Kuchen abbekommen und dass möglicherweise auch Neid in der Kritik steckt." |
|
|
| |
|
Koretz D (2008) Measuring Up. What Educational Testing Really Tells Us. Cambridge, Mass.: Harvard University Press.
|
"Testing has become the subject of intense controversy,
and quite a number of polemics have been published in recent years,
both pro-testing and anti-testing. This book is not among them ...
Rather, I want to clarify both the strengths and the limitations of
achievement testing ...
International comparisons ... have become a tremendously powerful influence
on the public debate and on policy ... What seems to interest most people
most is the horse race, the ranking of countries in terms of
students' performance... Most often, the conclusions based on the
data are somewhat vague ...
The notion of 'international mean' is useless ...
PISA and TIMSS tests rank countries quite differently ...
The fact that a difference is statistically significant is not protection
enough ... Occasionally, even large differences turn out
not to be consistent from one test to another ...
who treat either one of these assessments as the definitive answer ...
would be on very thin ice.
And this points out one of the best ways to avoid misusing test data:
don't treat any single test as providing the 'right', authorative answer.
Ever. When possible, use more than one source of information about
achievement — results from additional tests,
or information from other sources entirely." |
|
|
| |
|
Kraus J (2005) Der PISA-Schwindel. Wien: Signum.
|
Klappentext: "Dieses Buch will bewusst gegen den Strich bürsten, denn die PISA-Studien werden seit ihrer Veröffentlichung in einem Maße missbraucht, dass dies die eigentliche Katastrophe des deutschen Bildungswesens zu werden droht. Vor allem gilt es, die Jugend zu verteidigen, wenn ihr Können schon zu Hause schlecht geredet wird. Kinder und Jugendliche brauchen Ermutigung, man kann sie bei ihrem Ehrgeiz packen, aber sie haben das Herumnörgeln an ihrer vermeintlichen Minderwertigkeit satt." |
|
|
| |
Online
|
Kraus J (ed.) (2008) Bildungsgerechtigkeit Deutscher Lehrerverband. Fachtagung. Dokumentation.
|
Schweidler W:
Bildungsgerechtigkeit aus philosophisch-sozialethischer Sicht
Neumann D:
Bildungsgerechtigkeit aus anthropologischer und
begabungstheoretischer Sicht
Wißmann H:
Bildungsgerechtigkeit aus verfassungsrechtlicher Sicht
Brenner P J:
Bildungsgerechtigkeit aus Sicht der Bildungswissenschaft
Bender P:
Kann man soziale Durchlässigkeit mit Pisa messen?
Fend H:
Bildungsgerechtigkeit und außerschulische soziale Disparitäten -
Ergebnisse der LIFE-Studie ("Lebensverläufe von der späten Kindheit
ins frühe Erwachsenenalter")
Hey J:
Bildungsgerechtigkeit aus Sicht der Hochschulen
Achtenhagen F:
Bildungsgerechtigkeit aus Sicht der beruflichen Bildung
Kraus J:
Essay zur Bildungsgerechtigkeit
|
|
|
| |
Online
|
Ladenthin V (2003) PISA — Recht und Grenzen einer globalen empirischen Studie.
Eine bildungstheoretische Betrachtung. Vierteljahrsschrift für wissenschaftliche Pädagogik 79 (3) 354–375.
Auch in: Ladenthin, Volker:
Zukunft und Bildung. Entwürfe und Kritiken. Frankfurt am Main usw., 2004.
|
"PISA mißt ausgewählte Teilkompetenzen für die Teilhabe an der
Kommunikation in der Gesellschaft — also für Ausbildung im Hinblick
auf ein spezifisches Anwendungsprofil; PISA gibt aber damit nur begrenzt
Auskunft über die Bildungsprozesse, um deren gesellschaftliche Organisation
willen Schulen eingerichtet wurden. Der Anspruch, von einer einzigen
Wissenschaft her zu definieren, was die 'Basis' des Menschlichen ist,
und sich damit von dem Gedanken einer menschlichen Gesamtpraxis,
einer Person oder von sinnbestimmter subjektiver Totalität zu verabschieden,
soll hier mit der Finanzkraft einer großen Wirtschaftsorganisation
— der OECD — faktisch durchgesetzt werden.
Die 'andere' Basis des Menschen, Sittlichkeit und Sinn,
wird normativ nicht thematisiert." |
|
|
| |
Online
|
Ladenthin V (2007) PISA und Bildung ? Interview mit Rolf-Michael Simon. Neue Ruhr Zeitung, 18.11.2007.
|
"Warum ist es wichtig, auf welchem Rang Deutschland diesmal steht? Die Ergebnisse von PISA stehen in keinem kausalen Zusammenhang zu dem, was in den Schulen passiert... Um diese Missstände zu bemerken, braucht es keine teure Studie. Man kann einfach die nächste Schule an der Ecke besuchen." |
|
|
| |
|
Langfeldt G (2007) PISA — Undressing the Truth or Dressing up a Will to Govern? pp. 225–240 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Hier werden die Testgütekriterien Validität und Reliabilität
von PISA genauer in den Blick genommen.
Dabei wird zunächst die Qualität des Samples von PISA kritisiert (z.B.
Zusammensetzung der Populationen, Auswahl der teilnehmenden Schulen etc.).
Die Schwachstellen in der Validität der Studie liegen
in der systematischen Verleugnung der Diversität der Kinder
(etwa der kulturabhängigen Verzerrungen der Testergebnisse)
und in der Herkunft der Testitems:
Sie sind nicht repräsentativ für die unterschiedlichen Wissenskulturen,
sondern der weitaus grösste Teil stammt aus englischsprachigen Ländern.
So gesehen ist wenig überraschend, dass vier der sechs besten Teilnahmestaaten
englischsprachige Länder sind. In beiden Bereichen
entspricht PISA nicht den üblichen Standards vergleichender Forschung.
Das entscheidende Problem liegt aber darin,
dass diese Hintergründe für Laien nicht sichtbar sind, und daher —
guten Glaubens —
auf Grundlage von PISA etwa politische Entscheidungen getroffen werden. |
|
|
| |
|
Liessmann K P (2006) Theorie der Unbildung. Die Irrtümer der Wissensgesellschaft. Wien: Paul Zsolnay. Taschenbuchausgabe: München: Piper, 2008.
|
|
| |
|
Lind D (2004) Welches Raten ist unerwünscht? Eine Erwiderung. J. Math.-did. 25 (1) 70–74.
|
|
| |
|
Lind D, Knoche N, Blum W, Neubrand M (2005) Kompetenzstufen in PISA.
— eine Erwiderung auf den Beitrag von W. Meyerhöfer ... J. Math.-did. 25 (1) 80–87.
|
|
| |
Online
|
Lind G (2004a) Jenseits von PISA — Für eine neue Evaluationskultur Institut für Schulentwicklung Schwäbisch Gmünd, Hrsg.:
Standards, Evaluation und neue Methoden.
Reaktionen auf die PISA-Studie. Baltmannsweiler:
Schneider Verlag Hohengehren
|
Die Idee, mit Hilfe von Schulleistungstests eine Qualitätsentwicklung
in Gang zu setzen, ist auf den ersten Blick bestechend.
Ob sie in der Relalität funktioniert,
hängt aber offenbar davon ab, wie die Tests eingesetzt werden:
Zur Evaluierung von Personen oder aber von Methoden.
Nur im letzteren Fall ist Optimismus angebracht. |
|
|
| |
Online
|
Lind G (2004b) Erfahrungen mit Standards in den USA — eine Übersicht. Journal für Schulentwicklung 4/2004, 55–60.
|
In den USA dominiert der Trend,
Standards und Schulentwicklung voneinander abzukoppeln.
Aber es gibt auch verstärkt andere Bewegungen, die Beachtung verdienen.
Sie sind Ausdruck des Versuchs,
den in der US-amerikanischen Verfassung deklarierten Standard
der Demokratie in einen prozeduralen zu übersetzen.
Mithin spiegeln diese unterschiedlichen Bewegungen
auch Vorstellungen von Demokratie wieder. |
|
|
| |
Online
|
Lohmann I (2006) Die »gute Regierung« des Bildungswesens: Bertelsmann Stiftung. Manuskript des Beitrags zum 20. DGfE-Kongreß, Frankfurt am Main.
|
Zum Kontext von PISA:
"Netzwerke betreiben derzeit die Privatisierung
der Schulen in Deutschland...
Landesregierungen machen Mittelzuweisungen und den 'guten Ruf' einer Schule
zunehmend von der Teilnahme an Bertelsmann-Projekten abhängig.
Ob Schulleitungen
wollen oder nicht: Entweder sie beteiligen sich von sich aus
an einem Bertelsmann-Projekt
oder die jeweiligen Landesregierungen ... zwingen sie.
Die Bertelsmann Stiftung oder einer ihrer Affiliaten
ist immer schon da und stellt den auf diese Weise 'interessierten'
Schulen ein 'standardisiertes Steuerungsinstrument zur Verfügung',
das 'Schulleitungen und Kollegien hilft,
Schulentwicklungsprozesse mit Hilfe von Daten zu evaluieren und zu planen'.
Es speist sich 'aus einem international tragfähigen Qualitätsverständnis
von einer guten Schule',
welches Bertelsmann durch entsprechend ausgewählte Experten besorgt hat,
und wird 'durch wissenschaftlich geprüfte und praxiserprobte
Erhebungsinstrumente (Fragebögen für Schüler, Lehrer und Eltern,
Mitarbeiter und Ausbilder) konkretisiert', die ebenfalls aus
Bertelsmann-Projekten hervorgegangen sind.
Im Ergebnis mündet der Einsatz des Steuerungsinstruments
in einen qualitätsvergleichenden, sprich wettbewerbsgerechten
'Bericht für die Schule', 'der als Grundlage für die Maßnahmenplanung dient' ...
also dafür, die eigene Kommodifizierung und Vermarktförmigung voranzutreiben." |
|
|
| |
Online
|
Lohmann I (2006) Every School as a Small Business.
A privatization of the political is occuring worldwide today. The New York City Independent Media Center;
Translation of Freitag 31, 8/4/2006
|
In Germany, education politics is increasingly defined by the
Bertelsmann foundation, a branch of the giant publishing house.
The foundation impels politicians to privatise the public sector,
creating a market for services offered by other branches of
Bertelsmann.
It advocates all kinds of tests and evaluations —
and evaluates the success of those who followed its advice. |
|
|
| |
|
Maaz K, Kreuter F, Watermann R (2006) Schüler als Informanten?
Die Qualität von Schülerangaben zum sozialen Hintergrund. S. 31–59 in Baumert J, Stanat P, Watermann R (Hrsg.):
Herkunftsbedingte Disparitäten im Bildungswesen:
Differenzielle Bildungsprozesse und Probleme der Verteilungsgerechtigkeit.
Vertiefende Analysen im Rahmen von PISA 2000.
Wiesbaden: VS Verlag für Sozialwissenschaften
|
In Deutschland wurden in PISA 2000 die Schülerangaben zum
sozialen Hintergrund durch eine Befragung der Eltern überprüft.
Die Übereinstimmung von Schüler- und Elternangaben
zum Schulabschluss der Eltern lag
bei den häufigsten Abschlüssen um die 70%,
bei "exotischen" Abschlüssen deutlich darunter.
Hatten Eltern die Fachhochschulreife,
gaben das nur 27% der Kinder korrekt an.
Beim beruflichen Bildungsabschluss
und beim vierstellig kodierten Beruf lag die Übereinstimmung von
Schüler- und Elternangaben bei rund 40%;
beim daraus resultierenden,
zweistellig kodierten ISEI bei ungefähr 45%.
Nichts in dieser Auswertung rechtfertigt die Schlussfolgerung,
dass Schüler als "zuverlässige Informanten zur Erhebung von Bildungs-
und Berufsmerkmalen der Eltern" angesehen werden können. |
|
|
| |
Online
|
Mahamed A, Gregory P A M, Austin Z (2006) "Testwiseness" Among International Pharmacy Graduates
and Canadian Senior Pharmacy Students. Am. J. Pharm. Educ. 70 (6) 131.
|
"This study suggests that testwiseness skills are prevalent among
North American students and less prevalent among international
pharmacy graduates." |
|
|
| |
|
Manski C F (1995) Identification problems in the social sciences. Cambridge, Mass.: Harvard University Press.
|
"Empirical researchers usually enjoy learning of positive methodological
findings. Particularly pleasing are results showing that conventional
assumptions, when combined with available data, imply stronger conclusions
than previously recognized... Negative findings are less welcome.
Researchers are especially reluctant to learn that, given the
available data, some conclusions of interest cannot be drawn
unless strong assumptions are invoced." |
|
|
| |
|
Meehl P E (1978) Theoretical Risks and Tabular Asterisks:
Sir Karl, Sir Ronald, and the Slow Progress of Soft Psychology.
J. Consult. Clin. Psychol. 46 (4) 806–834.
|
Against mindless use of statistical tests. |
|
|
| |
Online
Homepage
|
Meyerhöfer W (2004a) Zum Problem des Ratens bei PISA. J. Math.-did. 25 (1) 62–69.
|
"Zusammenfassend lässt sich konstatieren,
dass es auch der PISA-Gruppe nicht gelungen ist,
das Raten auszuschalten oder zu behindern.
Die Aufgabenkonstruktionen schränken das Raten inhaltlich weder ein
noch verhindern sie es. Die Itemfits erweisen sich lediglich als
eine technokratische Scheinlösung für das Problem des Ratens:
Itemfits geben ein Maß, aber es ist kein Maß für die Möglichkeit
oder Wahrscheinlichkeit, dass bei einer Aufgabe geraten wird."
See also response by D. Lind 2004. |
|
|
| |
Online (erweiterte Fassung)
|
Meyerhöfer W (2004b) Zum Kompetenzstufenmodell von PISA. J. Math.-did. 25 (3/4) 294–305.
|
"In diesem Beitrag wird behauptet und zur Diskussion gestellt,
dass die Lösungshäufigkeiten der mathematischen PISA-Aufgaben
allein und allgemein keine Aussagen über ihre Schwierigkeit zulassen.
... Die inhaltliche Tragfähigkeit einer statistischen Definition
von Schwierigkeit wird in Frage gestellt. ... Die bei PISA
verwendeten Kompetenzstufen [sind so konstruiert], dass Aufgaben
diesen Stufen nicht zugeordnet werden können."
Criticized by D. Lind et al. 2005,
defended by Bender 2005a. |
|
|
| |
Buchhandel
|
Meyerhöfer W (2005) Tests im Test: Das Beispiel PISA. Leverkusen: Barbara Budrich.
|
Klappentext: "Was testen Tests? Mehr und anderes, als sie testen sollen, wie dieses Buch am Beispiel des Matheleistungstests von PISA belegt. Der Autor stellt mit der Objektiven Hermeneutik eine Methode vor, die uns tiefgründig erfassen lässt, was wir testen, wenn wir testen.
Wenn standardisierte Leistungstests wie PISA Schule stärker bestimmen, dann sind ihre gesellschaftlichen Implikationen auszubuchstabieren: Was tun wir mit Schule und Schülern, wenn wir standardisiert testen? Was erfahren wir über Schule und über Schüler, die wir testen? Wie gestaltet Gesellschaft Tests und umgekehrt? Und: Was testen Tests?
Dieses Buch diskutiert diese Fragen. Mit der Objektiven Hermeneutik stellt es eine Methode vor, die es erlaubt, allgemeine Probleme von Leistungstests herunterzubrechen in konkrete Untersuchungen einzelner Tests. Der Mathematikleistungstest von PISA wird untersucht, und es zeigt sich Überraschendes: Dieser Test ist als Instrument für das Testen von Mathematikleistung ungeeignet. Ein operationalisiertes Testkonstrukt liegt nicht vor — es bleibt unklar, was gemessen werden soll. Es zeigen sich Messunschärfen, Probleme des Ratens und des Mitmessens von Testfähigkeit. Das theoretischen Modell, mit dem die Messresultate gedeutet werden, erweist sich als nicht nachvollziehbar. Die als theoretische Basis des Test angegebenen Theorien werden nicht verwendet." |
|
|
| |
Online
|
Meyerhöfer W (2006a, 22007) PISA & Co als kulturindustrielle Phänomene. pp. 59–97 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"Large scale tests are generated in an industrialized, task-forced manner.
The theoretical concept of the culture industry allow us to understand
phenomena, which evolve from such industrialized working methods as:
alienating scientists from their products; the primary focus on
completions of studies rather than gaining comprehensive achievements;
technologically justifying semi-literacy; presenting products instead
of debate; agressively handling criticism; limited learning capacity
of the system. The phenomenon of 'country rankings', analysed
separately, subsequently explains the dominance of academic 'voyeurism'
over factual cognition." |
|
|
| |
Online
|
Meyerhöfer (2006b, 22007) Testen, Lernen und Gesellschaft:
Zwischen Autonomie und Heteronomie. pp. 433–453 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"School exists in the field of tension between autonomy and heteronomy. On the one
hand there is the requirement to develop the autonomy of the student as a part of
society, and on the other hand, the student shall simultaneously be introduced to
heteronomic conduct.
This chapter investigates the problem that tests force educational activities in school
towards heteronomy by damaging autonomy. The structural asymmetry between
tester and candidate inevitably generates a limitation of the autonomy of both tester
and candidate. Tests are discussed as a replacement for customary educational certificates,
the premises and effects of testing shown, the difference between test exercises
illustrated, and normal school exercises analysed." |
|
|
| |
|
Meyerhöfer W (2007) Testfähigkeit — Was ist das? pp. 57–92 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Das Problem der Testfähigkeit wird am Beispiel mathematischer Leistungstests erkundet. 'Testfähigkeit'
beschreibt jene Kenntnisse, Fähigkeiten und Fertigkeiten, die in einem Test wie PISA
miterfasst bzw. mitgemessen werden, die aber nicht unter den Begriff 'mathematische Leistungsfähigkeit'
zu fassen sind. Anhand von Aufgaben aus TIMSS und PISA wird mit Hilfe von didaktischen
und objektiv-hermeneutischen Aufgabeninterpretationen herausgearbeitet, welche empirischen
Phänomene das Problem der Testfähigkeit ausmachen. Es zeigt sich, dass die für PISA
erforderliche Testfähigkeit mit der in Lehrplan und Fachdidaktik gewünschten mathematischen
Bildung wenig gemein hat." |
|
|
| |
Online
|
Meyerhöfer W (2009) Aus dem Wunderland der Standards Mitteilungen der Gesellschaft für Didaktik der Mathematik 87, 19–21.
|
"Heute ist Freitag. In Philadelphia heißt das: Testtag
Philadelphia ist das Paradies für jeden Anhänger
der Standardisierung von Bildung...
Von Montag bis Donnerstag arbeitet man die Planbroschüre ab,
Donnerstag findet man den Test in seiner Postbox,
und am Freitag schreibt man den Test.
Am Montag geht's von vorne los." |
|
|
| |
Online
|
Micklewright J, Schnepf S V (2006) Response Bias in England In PISA 2000 and 2003 Southampton Statistical Sciences Research Institute (S3RI),
University of Southampton, Research Report No 771
|
"Summary of recommendations:
1. Analysis of response in future waves of PISA should take place on data sets
that are prepared and documented at an early stage.
2. Future analyses of response bias should investigate the impact of (i) school
replacement and (ii) the use of weights that take into account different
response levels within school strata.
3. Consideration should be given to whether it is practical to stratify samples of
pupils within schools by a domestic measure of achievement (KS3 or KS4).
4. DfES should consider ways of raising response among pupils and not just
among schools. It is the response biases at the pupil level that emerge most
clearly in our study.
5. Criteria for exclusion of any country from the international reports for PISA
need to be made explicit by OECD and clearly justified. Evidence for a
decision on exclusion needs to be published.
6. Response weights for responding pupils in England in both 2000 and 2003
that are based on a statistical model of pupil response of the type we present
in this report should be provided for users of the data.
7. The OECD should be engaged in discussion of whether adjustment for
response bias using post-stratification response weights could be used in the
future to avoid excluding a country from the international report." |
|
|
| |
|
Millman J, Bishop C H, Ebel R (1965) An Analysis of Test-Wiseness. Educ. Psychol. Meas. 25 (3) 707–726.
|
"'Test-wiseness' is defined as a subject's capacity to utilize
the characteristics and formats of the test and/or the test taking
situation to receive a high score. Test-wiseness is logically
independent of the examinee's knowledge of the subject matter
for which the items are supposedly measures." |
|
|
| |
Online
|
Monseur C, Wu M (2002) Imputation for Student Nonresponse in Educational Achievement Surveys. The International Conference on Improving Surveys,
Kopenhagen, 25.–28.8.2002.
|
Conference Contribution ("should not be quoted or cited").
"Some empirical data showed that the absent student could not
be regarded as 'missing at random'. ...
Consequently, the non-response data are likely to cause bias in the
population estimates. In the 2000 Programme for International
Student Assessment, make-up sessions were conducted for the
absent students the following day, but this did not eliminate
all the bias." |
|
|
| |
Besprechung
|
Münch R (2009) Globale Eliten - lokale Autoritäten.
Zur Bildung und Wissenschaft unter dem Regime von Pisa, McKinsey&Co. Suhrkamp-Verlag.
|
|
| |
|
Neuwirth E, Ponocny I, Grossmann W (Hrsg) (2006) PISA 2000 und PISA 2003: Vertiefende Analysen und Beiträge zur Methodik. Graz: Leykam.
|
Nach dem vermeintlichen "Absturz" Österreichs in PISA 2003
beauftragte die Bildungsministerin drei Statistiker mit einer
Untersuchung. Dies ist der offizielle Abschlussbericht,
der ein umfangreiches Erratum zu den bisherigen PISA-Berichten darstellt.
Die guten österreichischen Ergebnisse aus PISA 2000 waren massiv verzerrt,
weil Berufsschüler aufgrund einer Übermittlungspanne
in der Stichprobe unterrepräsentiert waren.
Auch für PISA 2003 wurde eine massive Verzerrung gefunden,
die durch die willkürliche Verankerung der Schwierigkeitsskalen in
einem von dreizehn Testheften hervorgerufen wird. |
|
|
| |
Online
|
New York State Education Department Elementary Middle Secondary and Continuing Education, Office of State Assessments (o. J.) Test Your Testwiseness.
|
Parody of a multiple-choice test... |
|
|
| |
|
Nichols S L, Berliner D (2007) Collateral Damage.
How High-Stakes Testing Corrupts America's Schools. Cambridge Mass.: Harvard Education Press.
|
"Sadly, in high-stakes testing environments,
we often see the test overinfluencing the teaching, resulting in
a narrowing of the curriculum... a clear case of the tail wagging the dog."
Legislation like No-Child-Left-Behind is "based on the premise
that children and teachers are not performing as well as they should",
that they must be pushed to work harder. "Based on our hundreds of school
visits, we have come to believe that the percentage of lazy teachers
... is considerably smaller than the percentage of lazy politicians
who do not read the legislation they support."
Cheating tactics reported by Tennessee teachers: week students were herded
to watch a movie, while academically stronger students took exams...
there were various suspensions for infractions of students who were
academically at the borderline just before the test...
teachers were wandering the classroom, occasionally pointing out wrong
answers to students or admonishing them, saying, 'You know better than that'
...
counselors locked their office doors after the state testing was done
to 'erase stray marks'... |
|
|
| |
Online Errata
|
OECD (2005a) PISA 2003 Technical Report. Paris: OECD.
|
|
| |
|
Olsen R V, Turmo A, Lie S (2001) Learning about students' knowledge and thinking
in science through large-scale quantitative studies. Eur. J. Psychol. Educ. 16 (3) 403–420.
|
"Within the research community in science education,
there has been a tendency to show little interest in the data from
studies such as TIMSS. Qualitative and smaller scale studies
have been the popular trend. In this article, we have argued that data
from both MC items and CR items, in international comparative studies,
can give valuable insight into students' knowledge and thinking in science.
However, interpretation of results from these kind of studies
must be based on a thorough analysis of the actual items used.
We have demonstrated that even small changes in the item wording and/or
format can have large influences on the response pattern.
This is a major challenge when drawing diagnostic interpretations
from international comparative studies such as TIMSS and PISA." |
|
|
| |
Online
|
Olsen R V (2005) An exploration of cluster structure in scientific literacy in PISA:
Evidence for a Nordic dimension? NorDiNa 1 (1) 81–94.
|
Groups of countries with similar language produce similar response
patterns. |
|
|
| |
|
Olsen R V (2007) Large-Scale International Comparative Achievement Studies in Education:
Their Primary Purposes and Beyond pp. 265–293 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Hier plädiert der Autor für eine Ausweitung und Ausdehnung der PISA-Studie, um das bestehende
Konzept sinnvoll ausschöpfen und davon ausreichend profitieren zu können. Es wird
vorgeschlagen, die umfangreichen und aufwändig erhobenen Daten der Studie ausführlichen
Sekundäranalysen zu unterziehen, um in diesem Rahmen einerseits zusätzliche Erhebungen
durchführen zu können und andererseits den gesamten Forschungszugang zu erweitern. Zu diesem
Zweck werden sechs konkrete Beispiele vorgeschlagen." |
|
|
| |
|
Paris S G, Lawton T A, Turner J C, Roth J L (1991) A Developmental Perspective on Standardized Achievement Testing. Educ. Researcher 20 (5) 12–20.
|
"Our surveyes of students in Grades 2–11 revealed that by adolescence many
students became suspicious and cynical about tests. A large number of
students, especially low achievers, become anxious about tests,
cheat, try half-heartedly, or use poor test-taking strategies.
These reactions ... undermine the validity of test scores ..." |
|
|
| |
Online
|
Prais S J (2003) Cautions on OECD's Recent Educational Survey (PISA). Oxford Rev. Educ. 29 (2) 139–163.
|
"Immense resources had been invested in carrying out and analysing
the results of this survey — but not, in my view,
in fully thinking through its purpose and design." |
|
|
| |
|
Prais S J (2007) England: Poor Survey Response and No Sampling of Teaching Groups pp. 139–155 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Die PISA — Ergebnisse von 2003 hatten für England keine Aussagekraft, da die vorgegebenen Teilnahmequoten
verfehlt wurden. Der Autor kritisiert an PISA und TIMSS, dass sie unkoordiniert
durchgeführt werden, einander beachtlich überschneiden und überdies kostspielig und unwirtschaftlich
sind. Da SchülerInnen mit geringem Leistungsniveau eher dazu tendieren, den Testungen fernzubleiben,
werden Testergebnisse zudem tendenziell nach oben verzerrt. Neben der Kritik an der
Repräsentativität des Samples wird auch bemängelt, dass in der Zusammenstellung des Samples
Klassen oder Unterrichtsgruppen inadäquat gewichtet wurden." |
|
|
| |
|
Prenzel M, Walter O, Frey A (2007) PISA misst Kompetenzen.
Eine Replik auf Rindermann 2006.
Was messen internationale Schulleistungsstudien? Psychol. Rundsch. 58 (2) 128–136.
|
|
| |
|
Puchhammer M (2007) Language-Based Item Analysis — Problems in Intercultural Comparisons pp. 127–137 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Puchhammer unterzieht die verfügbaren Mathematik-Testaufgaben einer quantitativen Analyse, die
sprachliche Schwierigkeiten bei PISA zu Tage bringt. Unter anderem wird festgestellt, dass unterschiedliche
Übersetzungen der Testitems verschiedene Längen der Texte zur Folge hat, was allein
erhebliche Ergebnisunterschiede verursachen kann. Auch die Schwierigkeit der übersetzten Begriffe
wird analysiert. Es stellt sich heraus, dass manche Wörter in anderen Sprachen schwieriger zu erfassen
sind, d.h. der Schwierigkeitsgrad der Aufgaben ist nicht für jede Sprache und jede Wissenskultur
gleich. Damit scheitert der Anspruch von PISA, faire internationale und damit sprachübergreifende
Vergleiche zu ermöglichen." |
|
|
| |
Online
|
Putz M (2004) PISA: Zu schön um wahr zu sein?
Liegt das Traumergebnis an Rechenfehlern? Hier online.
|
Südtirol nahm 2003 erstmals an PISA teil.
Ab Dezember 2004 erschienen in den Südtiroler Medien
"über drei Monate lang Jubelberichte, wonach Südtirol die
Nachbarländer Österreich und Italien haushoch geschlagen habe
und in Teilbereichen sogar vor dem Weltmeister Finnland liege.
Dies alles sei der Politik der SVP zuzuschreiben. Ein Blick
in die wenigen zugänglichen Datensammlungen ließ jedoch
bald Zweifel an der Aussagekraft des Sensationsergebnisses
aufkommen." |
|
|
| |
Online
|
Putz M (2008) PISA: JEDEM DAS SEINE — WUNSCHERGEBNIS Hier online.
|
|
| |
Online
|
Radtke F-O (2003a) Die Erziehungswissenschaft der OECD —
Aussichten auf die neue Performanz-Kultur In Nittel D, Seitter W (Hrsg.): Die Bildung des Erwachsenen.
Festschrift für Joachim Kade, Bielefeld, S. 277-304.
In gekürzter Form in der Zs. Erziehungswissenschaft 14 (27) 109-136
(2003b)
|
"Das Mittel, mit dem die OECD die nationalen Bildungspolitiken zu
beeinflussen sucht, ist Kommunikation... Wiewohl von dem jetzt in den
Vordergrund gerückten Indikator — Leseleistungen der Fünfzehnjährigen —
kaum auf den Zustand eines Schulsystems geschlossen, noch weniger
Urteile über den Wirtschaftsstandort oder Prognosen für das Wirtschaftswachstum
abzuleiten sind, wurde mit den PISA-Befunden in Deutschland
entschlossen Krisenstimmung gemacht... Die Aufregung
war Mittel zum Zweck. Die beiden PISA-Studien sind nur der
Anfang, gleichsam eine medienwirksam inszenierte volkspädagogische
und reformpolitische Vorübung...
Die im Medienzeitalter immer zu stellende Frage, wer an der
Aufregung welches Interesse hat, kann beantwortet werden...
Irritierender
Weise stehen die Lösungen der Consultants vor jeder Analyse der unbezweifelbaren
Probleme der Organisation von Erziehung, Gesundheit,
Gerechtigkeit und Wissenschaft immer schon fest: Markt, Wettbewerb,
Zentralisierung oder De-Zentralisierung, Budgetierung, Quality Management
etc., die mehr oder weniger mechanisch auf Krankenhäuser, Gerichte,
Schulen wie Universitäten, Fakultäten wie Bibliotheken, Institute
und Studiengänge übertragen werden sollen...
Mit den Instrumenten
performance agreements, performance measurement, programme evaluation
soll so eine grundlegende institutionelle Erneuerung des gesamten
Bildungssystems unter dem Gesichtspunkt erhöhter Rationalität und ökonomischer
Effizienz bewirkt und perspektivisch seine (Teil-) Privatisierung
der höheren Erziehung vorbereitet werden...
Dass die deutschen PISA-Autoren den politischen
Zusammenhang ihrer Studien unerörtert lassen, leistet einer Dekontextualisierung
von Wissenschaft Vorschub, die mit einem Verlust an Selbstbeobachtung
und Kritik bezahlt wird...
Weil es sich bei dem inter- wie dem intranationalen Länderranking der
Schülerleistungen allenfalls um korrelative, auf Stichproben beruhende
Aussagen über die Beziehungen einer unübersichtlichen Zahl von abhängigen
und unabhängigen, in ihrem Verhältnis längst nicht abgeklärten
Variablen handelt, hüteten die (deutschen) PISA-Autoren sich konsequent,
aus ihren Befunden kausale Aussagen zu machen oder gar
Empfehlungen für bildungspolitische Reformen abzuleiten. Mit ihrer
Zurückhaltung trafen sie jedoch nicht die Erwartungen der Auftraggeber
und der auf Kausalität fixierten Öffentlichkeit. Klagen Sozialwissenschaftler
sonst regelmäßig darüber, dass ihre Ergebnisse in Politik und
Praxis nicht zur Kenntnis genommen würden, so ist die wissensverwendungstheoretische
Pointe von PISA offenbar, dass die Autoren sich umgekehrt
vor der Rezeptionsbereitschaft der interessierten Öffentlichkeit, der
Massenmedien, der Politik, des Schulestablishments und wohl auch der
Schulen kaum retten konnten. Angesichts des von ihnen behaupteten
'Desasters' bei den Fünfzehnjährigen gab es geradezu eine Gier nach
monokausaler Erklärung. Die von ihnen selbst strategisch erzeugte große
Erwartung an die Studien hat dazu geführt, dass das enttäuschte Publikum
versucht war, die von den Befunden nahegelegten Suggestionen wie ein
Orakel als Gelegenheit zu nutzen, aus dem die jeweils bevorzugten, je
schon erhobenen Reformforderungen herausgelesen wurden.
Das OECD-Projekt der Performanz-Kultur basiert auf wackligen
Prämissen: Die Suche nach Ursachen- wie nach Wirkungskausalität in der
Erziehung, die die Voraussetzung für alle Versuche darstellt, Technologien
zu entwickeln, die prognostizierbare Ergebnisse garantieren könnten, ist
aus systematischen Gründen nicht erfolgreich gewesen und scheint auch
in Zukunft wenig aussichtsreich. Weder ist das zu erziehende Individum
eine Trivialmaschine, die konstante input-output-Relationen hervorbrächte,
noch ist mit dem homo oeconomicus zu rechnen, der nur rationale Entscheidungen
entlang nur einer Rationalität trifft, noch ist der output von
autonom operierenden Funktionssystemen und ihrer Organisationen
zuverlässig von außen steuerbar. Das Kontingenzproblem, das Prozesse
beschreibt, die weder natürlich, noch probabilistisch noch rational sind,
sondern komplexen soziale Mustern folgen, die nicht unabhängig von den
Beschreibungen und Reflexionen der Teilnehmer sind, steht ihrer
Steuerbarkeit entgegen. Trivialität und einlinige Rationalität werden aber
im Human-Kapital-Konzept ebenso vorausgesetzt, wie sie in alle bildungstechnologische
Programmen Eingang gefunden haben.
Die Analyse pädagogischer Kommunikation in und außerhalb von
Erziehungsorganisationen kann mit empirischen
Befunden aufwarten, die alle Machbarkeitsphantasien zerstreuen und doch
darüber aufklären, was geschieht, wenn erzogen werden soll. Bildungsverwaltung
und Bildungsforschung bestärken sich gegenseitig — aus je
unterschiedlichen Motiven — in einer Harmonie der Täuschungen über
ihre tatsächlichen Möglichkeiten. Es sind Selbsttäuschungen, die von den
Medien noch bekräftigt und zu konstanten Elementen des öffentlichen
Diskurses gemacht werden. In dieser Situation wäre zur Vermeidung von
Fehlinvestitionen eher theoretische Distanzierung durch Stärkung der
Autonomie der Erziehungswissenschaft geboten und nicht Einschränkung
ihrer disziplinären Kommunikation." |
|
|
| |
|
Radtke F-O (2005) Die Schwungkraft internationaler Vergleiche. pp. 355–385 in:
Bank 2005 (ed.):
Vom Wert der Bildung.
Bern: Haupt.
|
|
| |
Online
|
Raudenbush,S (2004) Schooling, Statistics, and Poverty:
Can We Measure School Improvement? Ninth annual William H. Angoff Memorial Lecture,
presented at Educational Testing Service, Princeton, New Jersey,
on April 1, 2004
|
"I compare two competing
approaches to measuring school quality and school improvement, the first based on school-mean proficiency, the
second based on value added. Analyses of four data sets spanning elementary and high school years show thatKADE/SEITTER 2002)
these two approaches produce pictures of school quality that are, at best, modestly convergent. Measures based
on mean proficiency are shown to be scientifically indefensible for high-stakes decisions. In particular, they are
biased against high-poverty schools during the elementary and high school years. The value-added approach,
while illuminating, suffers inferential problems of its own. I conclude that measures of mean proficiency and value
added, while providing potentially useful information to parents and educators, do not reveal direct evidence of
the quality of school practice." |
|
|
| |
|
Raven, J (1991) The Tragic Illusion: Educational Testing Unionville: Trillium.
|
"Factor-analytic studies conducted by psychologists since the turn of
the century have, on a whole, reinforced the tendency of teachers to think
in terms of 'ability' rather than 'abilities'... tests distinguish
between 'able' and 'less able' students... measure — and focus
attention on — only a tiny fraction of the talents which schools
could be identifying, fostering, and recording...
'back to basics' reinforces a 'single-factor' model of ability...
not only do test scores not predict life success to any socially
significant extent, the educational system in itself, in general,
adds little to peoples's competence...
if we are to find ways of assessing important human traits we will need
to abandon our desire to develop value-free, internally consistent
measures. Instead, we will need to develop value-based,
maximally-internally-heterogeneous indices which do justice to the
psychological complexity of these qualities." |
|
|
| |
Online
|
Raven, J (2008) Fundamental Problems in Psychometrics. Testing International 19, July, 16-17.
|
"Where would biologists have got to if they had sought to summarise
the variance between animals in terms of 1, 2, 5, or 16 'variables',
the variance in their environments in 10,
and the interactions between the two sets of variables
as a series of multiple regression weights?" |
|
|
| |
Online (restricted)
|
Rindermann H (2006) Was messen internationale Schulleistungsstudien?
Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten,
Wissen oder allgemeine Intelligenz? Psychol. Rundsch. 57 (2) 69-86.
|
"Reading literacy items contain tables and graphs,
science items extensive texts, math items common cognitive
tasks with long texts. ...
Correlations between scales on level of individual data are
higher than known correlations between scales of intelligence tests.
...
All results indicate a strong g-factor of cognitive abilities.
On level of macrosocial data a separation from intelligence is
empirically not possible." |
|
|
| |
|
Rindermann H (2007a) Intelligenz, kognitive Fähigkeiten, Humankapital und
Rationalität auf verschiedenen Ebenen. Psychol. Rundsch. 58 (2) 137–145.
|
|
| |
Online (restricted)
|
Rindermann H (2007b) The g-factor of international cognitive ability comparisons. Eur. J. Personality 21, 667–706 [special issue,
edited by Asendorpf J B, article followed by open peer commentary].
|
"International cognitive ability and achievement comparisons stem
from different research traditions.
But analyses at the interindividual data level show
that they share a common positive manifold.
Correlations of national ability means are even higher to very high ...
Causes of the high correlations are seen in the similarities of
tests within studies, in the similarities of the cognitive demands
for tasks from different tests, and in the common developmental factors
at the individual and national levels including known environmental and
unknown genetic influences." |
|
|
| |
|
Rocher T (2003) La méthodologie des évaluations internationales de compétences. Psychologie et Psychométrie 24 (2–3)
[Numéro spécial : Mesure et Éducation],
117–146.
|
"... la méthodologie est entièrement guidée par la volonté
de produire des palmarès fiables. Or, malgré les efforts entrepris,
il s'avère que des biais subsistent et fragilisent les classements
obtenus... Ne vaudrait-il pas mieux de montrer les spécificités de
chaque pays plutôt que de chercher à les gommer?" |
|
|
| |
|
Romainville M (2002) Du bon usage de PISA. La Revue Nouvelle 115 (3–4) 86–99.
|
Review of the first PISA reports: "beaucoup de bruit pour rien". |
|
|
| |
|
Rost J (1999) Was ist aus dem Rasch-Modell geworden? Psychol. Rundsch. 50 (3) 140–156.
|
Rost, the expert for psychometry in the German consortium
for PISA 2000 and 2003, expresses in this paper serious reservations
about the usability of the elementary Rasch model. |
|
|
| |
|
Rost J (22004) Lehrbuch Testtheorie — Testkonstruktion. Bern: Hans Huber.
|
Betont unter anderem, dass das Rasch-Modell nicht anwendbar ist,
wenn ein Test unter Zeitdruck stattfindet. |
|
|
| |
|
Sacks P (1999 / paperback 2000) Standardized Minds. The high price of America's testing culture
and what we can do to change it. Cambridge Mass.: Perseus Publishing.
|
In the USA, a Reform Crusade and an Accountability Machine are
based on "myths" that go back to the "Nation at Risk" report:
"American schools are in peril ... The U.S. economy is in peril
because of an inferior education system ...
Greater school 'accountability' will mean higher achievement." —
Most middle-class parents "simply do not consider or tolerate
the idea that learning cannot be completely captured by test scores ...
The pervasiveness of teaching to tests in American schools ... has
been thoroughly documented... Researchers have found consistently
that one of the most damaging effects of large-scale, big-stakes
standardized testing in schools has been to:
(1) oversimplify what's taught in school;
and (2) to severely constrict what is taught to only those items
most likely to appear on an upcoming standardized test."
After introduction of standardized tests in British Columbia,
observers noted "a narrowing of instructional patterns ...
A sense of fun and enjoyment seemed lacking here.
This was work and made to seem so." —
Children in California have taken at least ten standardized tests
by the time they graduate from high school.
"Indeed, if one wants to understand the driving forces behind the
unmitigated expansion of standardized testing in the United States,
then it behooves one to obey the simple adage: Follow the money." |
|
|
| |
Online (restricted)
|
Salzman H, Lowell L (2008) Making the grade Nature 453, 28–30
|
"International testing that is used to predict grim future
of US science and technology is being vastly misinterpreted." |
|
|
| |
Online
|
Schmidt C M, Fertig M (2003) Genaues Hinsehen lohnt.
Die Determinanten des Abschneidens
deutscher Schüler in der PISA 2000-Studie. Forschung and Lehre (6) 313-315.
|
"Die vorliegenden Berichte der OECD zu den Ergebnissen
der PISA-Studie offenbaren einige Schwächen, da in
den reportierten Analysen nur eine sehr unvollständige Kontrolle
um individuelle Heterogenität in den Testergebnissen
erfolgt. Es werden hauptsächlich Länderdurchschnittswerte
angeführt, aus denen sich der Einfluß unterschiedlicher individueller
sozio-ökonomischer, schulspezifischer, und systembezogener
Charakteristika nicht getrennt ermitteln läßt.
Als Konsequenz hieraus kursieren in der öffentlichen
Debatte eine ganze Reihe vermeintlicher Erklärungen für die
Resultate der Studie, insbesondere für das schlechte Abschneiden
der deutschen Teilnehmer. Sehr häufig werden beispielsweise
der relativ hohe Anteil an Schülern mit
nicht-deutscher Staatsangehörigkeit, ein mangelhafter
Zugang zu PCs in den Schulen, eine Überregulierung
der Schulen, schlechte Ausstattung mit Lehrmaterialien
und ähnliche Faktoren als Hauptursache angeführt.
Diese populären Ideen können einem genauen Blick
auf die Daten nicht standhalten...
muß hier vor allzu starken wirtschafts-
und bildungspolitischen Schlußfolgerungen gewarnt
werden. Zunächst muß festgehalten werden, daß selbst nach
der Berücksichtigung all dieser individuellen und schulischen
Einflußgrößen ein nicht unbedeutender unerklärter Rest verbleibt.
Dieser dürfte insbesondere auch auf in den Daten unbeobachtete
Unterschiede in den Schulsystemen der einzelnen
(Bundes-) Länder zurückzuführen sein. Starke Handlungsempfehlungen
sind darüber hinaus aufgrund der Daten einer
Momentaufnahme nicht vertretbar." |
|
|
| |
Online
|
Shriberg D, Shriberg A B (2006) High-Stakes Testing and Dropout Rates. Dissent Magazine.
|
Dropout rates and high-stakes testing receive their share of media
attention, but the likely connection between the two is rarely discussed
outside of education circles. |
|
|
| |
|
Sill H–D (2006) PISA und die Bildungsstandards pp. 391–431 in:
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"An analysis of scientific and educational-political backgrounds and desiderata of
current educational standards in Germany. — The educational standards that are
based on the PISA concept influence the theory and practice of mathematical education
in Germany in a similarly serious way to the New Math Movement did in
the 1960s and 1970s. A detailed analysis of the development of new education standards
illustrates the interplay between science and politics. Causes for the current
'warping' in the development of curricula in Germany are to be found in factors
such as: serious lack of didactic research, the ignorance towards achievements in
East Germany until 1989, disregard for the achieved status of development of general
curricula in certain federal states, and the neglect of international experience.
The status and the methods of curricula research in the FRG and the GDR are evaluated
and standards of NCTM are viewed as proof for these theses, in relation to
the educational standards. The current educational standards for secondary school
qualification in mathematics as well as a 'new exercise culture' are analysed critically
and perspectives for a thorough further development are shown." |
|
|
| |
|
Sireci S G (1997) Problems and Issues in Linking Assessments Across Languages. Educational Measurement: Issues and Practice 16 (1) 12–19.
|
"Given the current trend toward cross-national educational
comparisons, it is clear that ignorance of linguistic factors
affecting such comparative studies is unacceptable.
It is also clear that accounting for these factors poses considerable
challenges ..." |
|
|
| |
|
Sjoeberg S (2007) PISA and "Real Life Challenges": Mission impossible? pp. 203–224 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Der Beitrag zeigt, dass der Anspruch von PISA, 'Real—Life—Skills und Kompetenzen in authentischen
Kontexten' zu testen, fragwürdig ist. Ein Test kann nie besser sein als die Items, aus denen
er sich zusammensetzt. Demzufolge wäre es nötig, die Items der Testung und deren Anwendung
genau darauf hin zu überprüfen, was aber weder durch PISA selbst belegt ist, noch anderen durch
die Geheimhaltung der Testaufgaben möglich ist. Ob PISA überhaupt lebensweltlich relevante
Kenntnisse misst, ist also weder belegt, noch nachprüfbar. Die Aufgaben, die bekannt geworden
sind, lassen daran zweifeln. Eine weitere Kritik betrifft die PISA zugrunde liegende Annahme, dass
die teilnehmenden Schülerinnen und Schüler ihr Bestes im Test zeigen. Studien zufolge sind Motivation
und Testwilligkeit in verschiedenen Ländern äusserst ungleich. Ein erheblicher Teil der
Leistungsunterschiede könnte also daran liegen, dass PISA in manchen Ländern für viele Befragte
keinen 'authentischen' Wert hat." |
|
|
| |
Online
|
Stamm M (2005) Erziehungswissenschaft und Bildungspolitik —
Perspektiven eines schwierigen Verhältnisses. Die Deutsche Schule, 4, 421-431.
|
"Beispielsweise hat uns die zweite Runde
von PISA soeben eine Musterlektion zur grossen Verflochtenheit von Erkenntnis
und Interesse vorgeführt ...
dass die Aussagefähigkeit der erhobenen Daten offenbar dann ihre Grenzen hat,
'wenn es um kausale Schlussfolgerungen geht. Aufgrund der querschnittlichen
Anlage von PISA sind belastbare kausale Aussagen in der Regel
nicht möglich.' (Baumert, Stanat, Demmrich, 2001, S. 33). Diese Einschränkung
findet in Bildungspolitik und interessierter Öffentlichkeit jedoch
offenbar wenig Beachtung. Folgen sind argumentative Beliebigkeit
und die Legitimation nahezu jeden Reformvorschlags mit einem Rückgriff
auf die Ergebnisse der PISA-Studie ... PISA wird damit möglicherweise
auch zu einem Exempel dafür, dass die Bildungsforschung die
fehlende Interpretationskompetenz der Abnehmer zu wenig berücksichtigt
und demzufolge selektive Verwendungspraktiken geradezu provoziert ...
Erziehungswissenschaft wird sich deshalb bescheiden
müssen. Wenn sie sich jedoch zukünftig wieder verstärkt auf ihre
skeptische Funktion beruft, dann wird das Verhältnis zur Bildungspolitik
zwar nicht enger und einfacher, aber bedeutend ehrlicher." |
|
|
| |
Online
|
Switalla B (2002) PISA lesen. Implikationen der Lesekompetenz-Studie. Universitas Online.
|
"Alles in allem ist mein Eindruck der, dass die Lesekompetenz-Untersuchung der PISA-Studie eine bestimmte
Praxis, einen bestimmten Habitus des verständigen Lesens von Texten erforscht; dass die praktische Empirie mit
begrifflichen und methodischen Mitteln arbeitet, die zu nicht unbedingt überzeugenden Interpretationen und
Analysen führen; dass der verstehenspsychologische Bezugsrahmen erhebliche literalitäts-, text- und
sprachtheoretische Leerstellen hat; dass die begrifflichen und analytischen Probleme der Interpretation der
Quantifizierung der empirischen Befunde engere Grenzen setzen, als allgemein angenommen wird. Nicht nur die
Konsequenzen, sondern auch die Implikationen der PISA-Studie sollten also wissenschafts- und
bildungsöffentlich intensiver erörtert werden. Das hieße im einzelnen:
- Die literaliätstheoretisch und — historisch gesehen eingeschränkte Auffassung von Lesekompetenz sollte
aufgegeben werden: Literalität ist (nicht erst) heute ein intertextuelles und intermediales Phänomen.
- Die damit zusammenhängende, weder historisch noch systematisch gesehen angemessene Auffassung
vom Prozess des Lesens sollte revidiert werden: Lesen ist eine kulturelle Praxis.
- Der literalitätstheoretisch gesehen tragfähige Bezugsrahmen für die Lesekompetenzforschung kann nur
einer sein, der die Praktiken, Habitus, Traditionen des Lesens als hochkomplexe Interaktion der Person
innerhalb ihrer symbolischen Umwelten interpretiert: der Leser ist ein sich in unterschiedlichen
medialen Umgebungen bewegender Akteur.
- Die praktische Empirie der Lesekompetenz-Studie kann nur dann gelingen, wenn die Experten selbst
ihre eigenen Praktiken und Konzepte der Konstruktion, der Deskription, der Exemplifizierung und der
Evaluation literalitäts-, text- und sprachtheoretisch gesehen angemessener verstehen: der Analytiker
muss sich verstehenstheoretisch kompetenter orientieren."
|
|
|
| |
|
Tillmann K-J, Dedering K, Kneuper D, Kuhlmann C, Nessel I (2008) PISA als bildungspolitisches Ereignis.
Oder: Wie weit trägt das Konzept der "evaluationsbasierten Steuerung"? pp. 117-140 in:
Brüsemeister T, Eubel K-D (eds.):
Evaluation, Wissen und Nichtwissen.
Wiesbaden: VS Verlag für Sozialwissenschaften.
|
Large-Scale-Assessments "werden vor allem evaluationstheoretisch
begründet. Angeblich wird durch diese Studien 'Steuerungswissen'
produziert, das die Handlungs- und Entscheidungskompetenz der
Akteure in den Schulministerien erhöhen soll... Nun zeigt unsere
Analyse, dass die Wirklichkeit zumindest bei PISA wesentlich anders,
wesentlich komplexer aussieht... Die Minister... müssen sich vor allem
mit dem öffentlichen Bild der Ergebnisse auseinandersetzen...
Reaktionen auf PISA ... sind in aller Regel darauf ausgerichtet,
die politische Akzeptanz der Regierenden zu erhöhen." Beispiel:
wollte man versuchen, den Nutzen zentraler Prüfungen für
die Behebung "der durch PISA aufgedeckten Probleme ...
erziehungswissenschaftlich zu begründen, käme man in erhebliche Probleme." |
|
|
| |
|
Uljens M (2007) The Hidden Curriculum of PISA -
The Promotion of Neo-liberal Policy by Educational Assessment pp. 295–303 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"Das Phänomen PISA wird als ein Beispiel für einen grundsätzlichen, nahezu alle europäischen
Staaten betreffenden Trend zur Transformation der Bildungspolitik angesehen. Für Finnland im
Speziellen bedeutete dies, dass PISA in etwa dem entsprach, was die Wendung zur sogenannten
Bildungspolitik 'der dritten Republik' ohnedies anstrebte. Es wird im weiteren auf die auch in
Finnland verbreitete Kritik vor allem an den Intentionen, theoretischen Fundierungen und
methodologischen Aspekten des PISA-Projektes verwiesen, aber auch gezeigt, wie diese bei den
finnischen Erklärungsversuchen für den unerwarteten Erfolg Finnlands bei PISA unberücksichtigt
blieb.
" |
|
|
| |
|
Wise S L, DeMars C E (2005) Low Examinee Effort in Low-Stakes Assessment:
Problems and Potential Solutions. Educ. Assessment 10 (1) 1–18.
|
... findings indicate that motivated students perform,
on average, more than one-half standard deviation higher than
unmotivated students." |
|
|
| |
Online
|
Wuttke J (2007a) Uncertainties and Bias in PISA. pp. 241–263 in:
Hopmann, Brinek, Retzl (eds.):
PISA zufolge PISA — PISA According to PISA.
Wien: Lit-Verlag.
|
"This is a summary of a detailed report that has appeared in German
(Wuttke 2007b).
It will be shown that statistical significance criteria
of OECD/PISA are misleading
because several sources of systematic bias and uncertainty are quantitatively
more important than the standard errors communicated in the official reports." |
|
|
| |
Online
|
Wuttke J (2007b) Die Insignifikanz signifikanter Unterschiede:
Der Genauigkeitsanspruch von PISA ist illusorisch. pp. 99–246 in: 2nd edition of
Jahnke, Meyerhöfer (eds.):
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.
|
"The numeric accuracy of PISA is questioned on different levels.
In part 2 the representativity of the sample is examined
(school attendance,
enrollment data,
stratification,
exclusions,
special-needs students,
violation of minimum participation criteria,
correlation of participation propensity and latent ability,
gender,
unclear rules and uncomplete data).
Part 3 gives a self-contained explanation of
the item-response scaling (conversion of raw scores
into item difficulties and student abilities);
it is deduced that 4 points on the official 500–100 scale
correspond to less than 1% in right-response rate.
Part 4 shows why the one-parameter Rasch model
is not adequate for the cognitive data
(different discrimination parameters,
violations of the two-parameter model,
guessing,
model-dependence of item difficulty,
multiple responses to multiple-choice questions
[up to 10% in Austria],
different preferences for multiple-choice distractors,
global correlations as a measure for cultural proximity,
fatigue and lack of time).
Part 5 looks at the social background data.
The newly introduced index of econonomic, social and cultural status
is based on an unsound and outdated job prestige scale
and on a fundamentally flawed factor analysis.
The gradient of cognitive performance with respect to this index
depends critically on item selection;
similarly, gender differences ought to be analysed on item level.
In part 6, among other conclusions, it is argued
that systematic errors far outweigh stochastic uncertainties,
that the huge sample size is not justified by the attainable precision,
and that cyclic repetition of PISA will not provide
any useful trend indicator." |
|
|
| |
Online
|
Wuttke J (2007c) Pisa — ein teurer Zufallsgenerator. Berliner Zeitung, 8. 12. 2007.
|
"Kaum sind in dieser Woche die Ergebnisse von Pisa 2006 veröffentlicht
worden, streiten sich die Verantwortlichen um die Deutungshoheit.
Der OECD-Koordinator Andreas Schleicher sagt:
Die Verbesserung Deutschlands um 14 Punkte sei keine echte Verbesserung.
Der deutsche Pisa-Chef Manfred Prenzel widerspricht:
Man erkenne einen deutlichen Fortschritt.
Darf man das diesjährige Naturwissenschafts-Ranking
mit dem von 2000 und 2003 vergleichen?" |
|
|
| |
Online (restricted)
|
Wuttke J (2008) Erhöhter Dokumentationsbedarf bei Imputation fehlender Daten. Psycholog. Rundschau 59 (3) 178-179 (2008)
[online leider nur über abonnierte Bibliotheken;
auf Anfrage schicke ich gerne ein Reprint zu].
|
"Effizienz und relative Validität sind wichtige,
aber nicht die einzigen Qualitätsmerkmale wissenschaftlicher Arbeit;
wo sie in Konflikt mit Mitteilbarkeit und Nachvollziehbarkeit geraten,
kann eine Abwägung
je nach Studienzweck und Veröffentlichungsform
durchaus zu dem Entschluss führen,
zugunsten der Transparenz auf eine letzte
Verfeinerung der Datenauswertung zu verzichten...
In der PISA-Auswertung werden die nicht-administrierten Aufgaben
jedoch in einer von der Imputationstheorie nicht gedeckten Weise
in einem bestimmten Testheft verankert,
was eine systematische Verzerrung bewirkt (Neuwirth 2006, S.~55).
Das Ausmaß dieser Verzerrung beträgt ein Mehrfaches der Standardfehler,
die ihrerseits durch die Einbeziehung imputierter Daten
um nur 10% reduziert werden (Wuttke 2007b, S.~147):
hier schadet Imputation mehr, als sie nützt." |
|
|
| |
Online
|
Wuttke J (2009) Pisa: Nachträge zu einer nicht geführten Debatte. Mitteilungen der Gesellschaft für Didaktik der Mathematik 87, 22–34.
|
"In den bald acht Jahren,
die seit dem initialen PISA-Schock vergangen sind,
ist unüberschaubar viel zur Exegese der Testergebnisse gesagt worden,
weitaus weniger aber über deren Zustandekommen...
Daher erscheint es nicht unangemessen,
eine von PISA&Co besonders betroffene Fachgemeinschaft
noch einmal eindringlich auf problematische Seiten
testgetriebener Schulgestaltung hinzuweisen." |
|
|
| |
|
Yamamoto K, Mazzeo J (1992) Item Response Theory Scale Linking in NAEP. J. Educ. Stat. 17 (2) 155–173.
|
"Standard errors for NAEP results [same holds for PISA results]
reflect only the estimation due to examinee sampling and imputation.
In future assessments, consideration should be given
to including other sources of uncertainty in the reported
standard errors of assessment results." |
|
|
| |
Online
|
Zabulionis A (2001) Similarity of Mathematics and Science Achievement of Various Nations. Educ. Policy Analysis Arch. 9 (33).
|
Response patterns in TIMSS as a measure of cultural proximity. |
|
|
| |
|
Zwick R (1992) Statistical and Psychometric Issues in the Measurement of
Educational Achievement Trends:
Examples From the National Assessment of Educational Progress. J. Educ. Stat. 17 (2) 203–218.
|
A change in item order suffices to produce a "steep drop"
in ability estimates. |
|
|
| |