Joachim Wuttke:
PISA & Co
A Critical Online Bibliography
 

Introductory Notes

Motivation

In some European countries, OECD's programme for international school assessment has had tremendous impact on public opinion. In Germany, "PISA" has become a synonym for whatever is believed to go wrong in the school system, and it is cited as justification for the most diverse political demands and decisions (Fertig 2004, Stamm 2005, Tillmann et al. 2008, ...).

OECD's publicity has successfully created the impression that PISA yields reliable data, based on commonly accepted methodology. This is a delusion. PISA basically copied its methodology from TIMSS which in turned has borrowed much from USA's NAEP and from previous studies of the IEA. All these studies are heavily contested in the scientific literature. Central assumptions have been disproven time and again.

Yet it is difficult for outsiders to grasp the state of the scientific debate. While the test industry is well organized, internationally connected, and financially potent, critics tend to be isolated, often ignoring each other: there is little point in organising anti-testing congresses ... Critical analyses of PISA&Co, published in different languages and in disperse locations, are often difficult to find. Only recently, two collections of essays (Jahnke, Meyerhöfer 2006/7 in German; Hopmann, Brinek, Retzl 2007 in German and English) and some review papers (Goldstein 2008 in French, Bank and Heidecke 2009 in German) provided some overview, showing from how many different viewpoints the methodology of school assessments needs to be debated:
No step in the research process seems to be without substantial problems, several steps do not meet rigorous scholarly standards (Hopmann and Brinek 2007).
This online bibliography intends to carry that effort forward, providing an entrance point to a vast body of literature.

Reprint Repository

Some papers that are otherwise difficult to access are republished in an archiv associated with this website. Thanks to authors and publishers for their kind permission. My own publications on PISA are accessible here.

Status

This is work in progress. It will be occasionally updated, as I find time. Comments and suggestions are always welcome: please send mail to <my first name>.<my last name>@messen-und-deuten.de.

Quotes

In the systematic part of this bibliography, no effort is made to keep quotes and summaries distinguishable. Many quotes had to be translated, many have been contracted to a point where it is no more appropriate to mark them as quotes. However, most text in the systematic part of this bibliography can be traced back to the alphabetic part that consists of references and excerpts. In that part, all quotes are in double quotation marks ("..."); all other text is mine. If in doubt, read the cited original work.

Referencing this Work

Students beware: Collecting, excerpting, abstracting and translating creates intellectual property. When using this bibliography for scholastic or scientific work, don't forget to cite it. The recommended form of citation is: Joachim Wuttke: OECD/PISA. A Critical Online Bibliography (2008-). http://www.messen-und-deuten.de/pisa/biblio.htm (<date>).
 
Systematic Part (work in progress...)

Background and Concept

Fifty Years of International School Assessments

International comparisons of student performance started in the 1960s (Foshay 1962). The IEA (International Association for the Evaluation of Educational Achievement) was founded in 1967, but traces its origins back to 1958 (IEA website). 50 years of failure, to make my standpoint clear from the beginning. The shortcomings of the first huge studies conducted by the IEA (International Association for the Evaluation of Educational Achievement) have been dissected impressively by Freudenthal 1975. At present, the IEA cyclically conducts two major studies: TIMSS (Trends in Mathematics and Science Study, 1999, 2003, 2007, ...) and PIRLS (Progress in Reading Literacy Study, 2001, 2006, ...; in Germany known as IGLU).

In the 1990s, the OECD (Organisation for Economic Co-operation and Development), the statistics bureau of the developped nations, expanded its educational monitoring, culminating in PISA (programme for international school assessment). It was kind of a hostile takeover: The OECD hired psychometricians who had worked on TIMSS, copied the methodology, used the same software, and took over entire countries (like Germany, which discontinued TIMSS in favor of PISA).

Decision processes in the OECD are opaque; it is difficult to voice diverging opinions (DESCO 2003).

The Test Industry

PISA is run by huge companies who serve — and create — worldwide demand for all kind of tests (Flitner 2006). "Indeed, if one wants to understand the driving forces behind the unmitigated expansion of standardized testing in the United States, then it behooves one to obey the simple adage: Follow the money." Besides the test industry (Psychological Corporation / Harcourt, Riverside / Houghton Mifflin, National Computer Systems Inc., California Test Bureau / McGrawHill, Educational Testing Service), there florishes a peripheral industry that coaches people for college and university admissions tests (Princeton Review, Kaplan) (Sacks 1999).

In Germany, education politics is increasingly defined by the Bertelsmann foundation, a branch of the giant publishing house. The foundation impels politicians to privatise the public sector, creating a market for services offered by other branches of Bertelsmann. It advocates all kinds of tests and evaluations — and evaluates the success of those who followed its advice (Lohmann 2006a, 2006b).

Designed to Produce Rankings

There is a conflict between political and scientific interests. PISA's focus on one-dimensional ranking is serving politics, not science. It makes the study vulnerable to cultural bias. A pedagogical approach, by trying to understand why some skills are better mastered in some countries, would certainly have been more informative than constructing macro indicators which can only be interpreted from the point of view of country rankings (Bonnet 2002, Rocher 2003, Bottani and Vrignaud 2005). The publicity PISA got in some countries seems to be mainly due to what is actually its weakest point: the methodically untenable ranking of countries (Hopmann 2007).

"Tests, distinguishing between 'able' and 'less able' students, reinforce the tendency of teachers to think in terms of 'ability' rather than 'abilities'; they measure — and focus attention on — only a tiny fraction of the talents which schools could be identifying, fostering, and recording. If we are to find ways of assessing important human traits we will need to abandon our desire to develop value-free, internally consistent measures. Instead, we will need to develop value-based, maximally-internally-heterogeneous indices which do justice to the psychological complexity of these qualities" (Raven 1991).

The Test Items: What Does PISA Measure?

The Notion of 'Literacy'

Items become easier if students read first the questions, then the introductory material; the ability that is being tested is not 'reading in a real life situation', but 'reading in a examination context'; this focus is too narrow to draw far-reaching consequences (Switalla 2002, Bain 2003).

The global and vague definition of mathematical literacy looses its meaning through its operationalization in the form of PISA test items (Jablonka 2006). For a majority of items, 'mathematical literacy' is either not necessary or even obstructive (Bender 2006). The theory that is said to underly item construction is actually not used (Meyerhöfer 2005).

Quality of Test Items

Interviews with students show that TIMSS items don't work as their authors intended (Hagemeister 1999).

PISA is an intelligence test (Rindermann 2006, 2007b).

Translation and Cultural Bias

The translation problem is a very fundamental one, and a solution is not even in sight (Freudenthal 1975, Sireci 1997). Student responses depend on minor nuances in the wording of items (Blum and Guérin-Pace 2000 p. 113, Olsen et al. 2001). This can also be seen in published student responses (Blanke et al. 2004). Discounting all other problems, different text length alone is sufficient to introduce consequential bias (Puchhammer 2007, Wuttke 2007b ch. 4.8).

There is a bias in favor of english-speaking students and in favor of countries that contributed items (Artelt and Baumert 2004, Langfeldt 2007). Similarly in TIMSS: items reflected North American school reality (Hagemeister 1999).

The impact of language and culture on the test results can be demonstrated by a purely mathematical procedure that uncovers similarities between groups of countries (Zabulionis 2001, Rocher 2003, Olsen 2005, Wuttke 2007b ch. 4.8).

Testwiseness

In the USA, the impact of testwiseness is recognized since many decades. It can be defined "as a subject's capacity to utilize the characteristics and formats of the test and/or the test taking situation to receive a high score. Test-wiseness is logically independent of the examinee's knowledge of the subject matter for which the items are supposedly measures" (Millman et al. 1965, Test Your Testwiseness). Test-taking ability is a decisive factor that easily outweighs the specific competences that ought to be measured (Boe et al. 2002). Testwiseness is prevalent among North Americans, less so among international graduates (Mahamed et al. 2006).

Concerning PISA, detailed analysis of some math items shows importance of test-taking skills (Meyerhöfer 2005, 2007). Coding instructions for open items show that very short answers are often sufficient, provided they somehow vary the words of the question. This examination style is common in some countries, but completely unknown in others (Romainville 2002, Bain 2003).

Student Motivation

By adolescence many students became suspicious and cynical about tests (Paris et al. 1991). Published solutions from Luxembourg show that some students do not take the test serious: they spend exagerated time on nice drawings, instead of working against the clock (Blanke et al. 2004). Motivation is a decisive factors that easily outweighs the specific competences that ought to be measured (Boe et al. 2002, Wise and DeMars 2005). Huge difference between different countries (Sjoeberg 2007, Wuttke 2007c).

How are Student Responses Converted to "Competence" Values?

Item Response Theory

There are tens of textbooks on IRT. Most of them are very similar: written for mathematically challenged readers, they spread elementary calculations over tens of pages, and stop when things become interesting. The book edited by Fischer and Molenaar 1995 is a laudable exception: it presents a deep, coherent view on IRT.

In German language, the most important textbook is Rost 2004. Rost has been the expert for psychometry in the German consortium for PISA 2000 and 2003. Nevertheless, he has serious reservations about the simple Rasch model used in PISA (Rost 1999).

Where is the theory? IRT should better be named IRM, item response modelling. Looking back at 50 years, a disappointing lack of advance is found (Goldstein and Wood 1998).

Is One-dimensional Item Response Theory Applicable to PISA?

One-dimensional IRT is a caricature, an application of 20th century statistics to 19th century psychology (Mislevy in Frederiksen et al. 1993). The U.S. NAEP from which PISA indirectly borrows its methodology, is rejected by the National Academy of Sciences and other organizations — among other reasons because results are inconsistent: Children can't answer questions they should be able to and can answer questions they shouldn't be able to (Bracey 2007).

Pedagocially relevant information is lost when reducing empirical results to a one-dimensional scale (Olsen et al. 2001, Rocher 2003, Olsen 2007).

Whether one-dimensional IRT fits to given test results or not, is a relatively well defined question that can be decided by statistical tests, or better by drawing some graphs (Hambleton et al. 1991, p. 66; Andersen, quoting Rasch, in Fischer and Molenaar 1995, p. 387; more generically Meehl 1978, p. 825). These checks show consistently that PISA data are not onedimensional:

One-dimensional IRT was originally invented for open-response items. The problem of guessing in multiple-choice items has never been satisfactorily solved (Goldstein and Wood 1998). PISA items invite 'qualified guessing' (Meyerhöfer 2004a, D. Lind 2004).

Items are not homogenous with respect to sex, and ethnicity and year of investigation (Allerup 2007). Comparison of reading items between two countries shows that latent abilities are at least two-dimensional (Goldstein et al. 2007).

Standard IRT does not work for tests done under time pressure (Rost 2004). PISA, however, is performed under considerable time pressure (Wuttke 2007b, ch. 4.9). On the other hand, the cognitive test of PISA is rather long. Besides 'ability', PISA is clearly testing patience (Wuttke 2007b, ch. 4.9).

Change in item-order suffices to disprove Rasch assumptions (Zwick 1992).

Representativity and Accuracy

Choice of Target Population

PISA's target population, school students at age 15, is not everywhere representative for the age cohort. In several countries, school is not obligatory at that age 15. In Mexico, Turkey, Liechtenstein, a large fraction of students has left schools by then. Schools in Portugal, Great Britain, and many other places are plagued by drop out and absenteism. Therefore, students at age 15 are not representative for the 'outcome' of entire 'school systems' (Wuttke 2007b, ch 2.1).

On the other hand, at age 15 the capacity of abstract reasoning is still in full development (Carroll 1987). Therefore, the abilities of 15-year-olds are far from representing the final 'outcome' of schooling.

Sampling Problems

Leading members of the international PISA team admit that absent students "are likely to cause bias" (Monseur and Wu 2002). Weak students tend not to participate (Micklewright and Schnepf 2006, Prais 2007, Wuttke 2007b ch. 2.7). Criteria for including countries with insufficient response are not adequately documented (Micklewright and Schnepf 2006).

Defining homogeneous exclusion criteria across different jurisdictions is actually quite a fundamental problem. Even within the USA, in the nation-wide NAEP assessment, there is a strong likelihood that student exclusions cause bias that cannot be corrected by currently used methods (Braun et al. 2010).

Coverage of handicapped students is rather inconsistent (Hörmann 2007). Some countries exclude students with dyslexia or/and dyscalculia from the PISA sample (OECD 2005a pp. 183-).

In PISA 2003, Austria experienced a slump with respect to 2000. The ministry, accused of having spoiled the country's schools, commissioned an investigation. The investigators discovered a major inconsistency in the PISA 2000 sample, due to a data transmission error. Students from vocational schools had been underweighted. Corrected data for PISA 2000 were as mediocre as for 2003; no slump had happened (Neuwirth et al. 2006). As sampling procedures are largely undocumented, they are not only error-prone, but also susceptible to intentional manipulations (Nichols and Berliner 2007: "states cheat too"). How that works in practice has been found out by a teacher from Southern Tyrol: the superb results of that one-party state are almost certainly due to biased sampling (Putz 2004, 2008).

Scaling Problems

Violations of latent-trait unidimensionality in combination with the multiple-booklet design and and variance-reducing measures in the scaling procedure lead to distortions of up to 16 points (booklet-9-effect, Neuwirth et al. 2006, Wuttke 2007b ch. 3.10).

Quantifying Social, Economic and Cultural Background

The "Standard International Socio-Economic Index of Occupational Status" (ISEI), used in PISA for indexing the occupation of parents, is based on an incredibly shallow compilation (Ganzeboom et al. 1992). Though only derived for men, in PISA the ISEI is also applied to women.

German PISA authors disagree strongly with OECD's choice of expressing social, economic and cultural background by the ESCS index (Baumert et al. 2006).

No valid conclusions can be drawn from student-provided background data (DESCO 2003). Up to 73% of PISA examinees failed to indicate the exact educational level of their parents, about 60-65% described the parents' professions incorrectly (Maaz et al. 2006 — everything in this study denies the conclusion that students are reliable informants).

Communication and Interpretation of Results

Communication of Results

First published reports were full of gaps and flaws, and far below academic standards (v. Collani 2001). PISA authors do not enough against misunderstanding and overinterpretation of statistical results (Bender 2005a, Stamm 2005). Statistical significance and practical significance are easily confused. Correlation coefficients suggest invalid causal inferences (Bracey 2006).

Published error bars and significance criteria are misleading; systematic errors far outweigh published stochastic errors (Yamamoto and Mazzeo 1992, Wuttke 2007a, 2007b).

Discord Inside PISA

A member of the German PISA advisory board calls the country rankings 'a game' (Klemm 2006); he also criticizes confusing indicators and definitions (Klemm 2008).

When results from PISA 2006 were published, the latent conflict between OECD's PISA secretary Schleicher and the German PISA team (Flitner 2006) could no longer be concealed from the general public (Füller 2007).

Baumert et al. 2006 strongly criticize the index of social, economic, and cultural status used by the OECD. They also point out specification errors in the international PISA reports: stratification effects of the German school system are not correctly taken into account.

Reaction to Criticism

PISA authors employ an ungraceful tone; critics are frequently accused of misunderstanding (Bender 2005a). PISA authors react to criticism not like scientists but like managers who defend a business (Meyerhöfer 2006a, Hopmann and Brinek 2007). According to a PISA profiteer, criticism is due to envy (Köller 2006).

'Competence Levels'

Definition of competence levels is arbitrary and opaque (Bain 2003). Items can be solved in very different ways, and the difficulty of solutions depends on curricular background. Therefore it is not possible to assign items to well-defined competence levels (Meyerhöfer 2004b, contested by D. Lind et al. 2005, defended by Bender 2005a).

Determinants of Student Achievement

The influence of the migrations structure is systematically underestimated in favor of an undifferentiated 'social' structure (Bender 2006). There is no causal relationship betwee PISA results and what happens in schools. Visiting any school will teach more about real grievances (Ladenthin 2007).

Evolution in Time

"Lake Wobegon effect": Over the years, test scores tend to increase. Increased achievement is by no means the whole explanation (Cannell 1988). There is reason to believe that the problem of test score pollution is pervasive in American education (Haladyna et al. 1991).

Variation of item difficulties between PISA 2000 and 2003 is incompatible with the Rasch model (Allerup 2007).

The Identification Problem (Attribution of Results)

PISA "measures" certain abilities of 15-years-olds. The authors suggest that their data represent the "outcome" of national "school systems", and the political impact of the study is largely due to this interpretation. However, it is far from clear that differences in test results are actually due to differences in the school system, as there are many other input factors, some of them unobeservable like "inherited ability, motivation, learning effort etc." (Fertig 2004). This is called an identification problem. Intellectual honesty requires not to present conclusions, however plausible they may seem, without exposing the strong assumptions on which they depend (Manski 1995).

PISA results say much about immigration policy, little about school quality (Hagemeister 2007-). The low educational level in immigrant families in Germany is mostly due absent or failed immigration politics (Schmidt and Fertig 2003).

It is not possible to copy entire school systems (von Freymann 2003, Bank 2008).

Consequences

Evaluation Culture

Evaluation should assess methods, not persons (G. Lind 2004a).

Political Use and Abuse of PISA

Responsiveness to PISA can be seen as an instance of what Luhmann has called 'externalisation'. That is, the reference to 'world situations' enables policy-makers to make the case for education reforms at home that would otherwise be contested. Thus local policy actors are using PISA as a form of domestic policy legitimation (Grek 2009). Particularly in Germany, the PISA results were abused by political and media elites in order to manipulate public opinion and to serve certain ideologies. PISA shares responsibility for such abuse in two ways... (Bender 2006). Political decisions are based on PISA without understanding how the results came about (Langfeldt 2007). It seems, everybody uses PISA to find confirmation for his own opinions (Bozkurt et al. 2007). Whatever the outcome of PISA, it was used for pushing an agenda that was written before the test was carried out (Radtke 2005).

PISA Rewrites Curricula

By participating in PISA, German politicians give up souverainty about what should be learned in German schools (Flitner 2006). An economic organisation, the OECD, imposes a shift towards utilitarian education goals (Romainville 2002, Ladenthin 2003). Promoton of neo-liberal policy (Uljens 2007).

Economic importance of test results is overestimated (Salzmann and Lowell 2008).

The structural asymmetry between tester and candidate inevitably generates a limitation of the autonomy of both tester and candidate (Meyerhöfer 2006b).

History of curriculum and 'education standards' in Germany (Sill 2006).

Teaching to the Test

One of the most damaging effects of large-scale, big-stakes standardized testing in schools has been to oversimplify what's taught in school, and to severely constrict what is taught to only those items most likely to appear on an upcoming test (Sacks 1999). In the USA, the 'No Child Left Behind' legislation brought the inflation of tests and evaluations to an apogee. There are indications that pressure put on schools leads to increased student drop-out rates (Shriberg and Shriberg 2006). Pennsylvania is the paradise of standardized ecuation: tests are now taken once every week (Meyerhöfer 2009).

Teacher Education by Evaluation Specialists

The disproportionate importance of evaluation in contemporary pedagogical research implies that teacher education is increasingly entrusted to evaluation specialist who have little teaching experience of their own (Giesecke 2004).
 
Alphabetic Part: Sources and Excerpts
Allerup P (2007)
Identification of Group Differences Using PISA Scales - Considering Effects of Inhomogeneous Items
pp. 175–201 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

Analysing item statistics from PISA 2000 and 2003, the author shows that scales are not homogenous with respect to sex, and ethnicity and year of investigation. The inhomogeneity "seems to have less impact on crude comparisons of (average) PISA abilities with no other variables involved, amounting to around 10 PISA points, while more sophisticated comparisons ... are more affected".

 
Online (restricted)
Artelt C, Baumert J (2004)
Zur Vergleichbarkeit von Schülerleistungen bei Leseaufgaben unterschiedlichen sprachlichen Ursprungs.
Z. Pädagog. Psychol. 18 (3/4) 171–185.

Bei PISA-Aufgaben gibt es systematische Verzerrungen zugunsten der Sprachgruppen, aus der die Aufgaben stammen. In Summe bewirkt die Dominanz englischsprachiger Aufgaben einen deutlichen Vorteil für englischsprachige Schüler, was die Autoren mit Hilfe eines ungerechtfertigten Nullhypothesentests herunterspielen. Über die Benachteiligung von Ländern, die gar keine Aufgaben beigetragen haben, lässt sich mit der hier gewählten Methodik ebensowenig eine Aussage treffen, wie über Verzerrungen zugunsten bestimmter Sprachgruppen, die in endogenen und übersetzten Aufgaben gleichermaßen wirken.

 
Abstract (en,de,fr,it)
Bain D (2003)
Pisa et la lecture: un point de vue de didacticien.
Revue suisse des sciences de l'éducation 25 (1) 59–78.

"... it is important to examine the validity — and thus the interest — of such an operation from the didactical point of view. We leave it to others to defend the positive aspects of this programme, seeking here only to highlight the limits of it's usefulness for didactics — perhaps even the obstacles which this type of investigation might erect with respect to current efforts to improve the teaching of reading. We will conclude by asking about the secondary effects of the study and whether the effort is worth the investment."

 
Contents
Bank V (ed.) (2005)
Vom Wert der Bildung. Bildungsökonomie in wirtschaftspädagogischer Perspektive neu gedacht.
Bern: Haupt.

PISA is discussed in particular in the chapter by Radtke 2005.

 
Bank V (2008)
Vom Wert des Vergleichs.
Chemnitzer Europastudien 8, 257-274

"Im synchronen Systemvergleich der PISA-Studien wird noch nicht einmal überlegt, wo eventuelle Systemgrenzen zu ziehen wären. Hier gilt einzig die administrative Grenze als relevant, und doch wird in den Publikationen 'Deutschland' in die Rangfolge gebracht, nicht die einzelnen Bundesländer.
Es geht an einer rein binnensystemischen Veränderung kein Weg vorbei. Jede melioristische Idee, welche die Veränderung von systemischer Binnenkomplexität unmittelbar aus der Andersartigkeit 'erfolgreicherer' Systemordnungen ableiten will, argumentiert in keiner wissenschaftlich haltbaren Weise, sondern willkürlich...
Die Bildungssystemverbesserer schert solch strukturalistisches Gedankengut offenbar wenig... Die Dritten Mittel fließen in Strömen, das Geschäft boomt, weil die politische Klientel der Bildungsforscher in Panik ist... Insgesamt sind das nicht weniger als 20,30 Mio. EUR, die der Steuerzahler für die Vergleichsstudien bis einschließlich 2006 aufbringen musste...
Verbesserungsvorschläge lassen sich dem Projekt, wie hier mit einfachen Mitteln angedeutet, kaum entnehmen. Dass ein Verfall der Leistungen, zumindest aber eine Verlagerung der Leistungsfähigkeit der Jugend von formalen Leistungsaspekten wie Rechnen und Rechtschreibung hin zu einer selbstbewussten Selbstdarstellungsfähigkeit wenigstens über die letzten 30 Jahre stattgefunden hat, hätte man sicherlich von jeder erfahrenen Sekundarstufenlehrkraft durch einfaches Nachfragen in Erfahrung bringen können...
Wer aber meint, aus den Ergebnissen der Studie ließe sich irgendeine bildungspolitische Maßnahme legitimieren, erreichte für die Verbesserung der Erziehungssysteme mehr, indem das Steuergeld statt für die Beschäftigung von Wissenschaftlern für die Schüler selbst, etwa in Form neuer Schulbücher, ausgegeben würde — jedenfalls dann, wenn ernsthaft Interesse an einer besseren Erziehung der Jugend bestünde."

 
Bank V (2009)
Aufstieg durch Bildung — oder "Erziehung als Therapie der Gesellschaft"
Pädagog. Rundschau 63, 123-140

"Dabei sind doch deutsche Schülerinnen und Schüler definitionsgemäß besser als der Rest der Welt — wenn nicht, muß 'das System' versagt haben. Übergeht man die vielfältige Kritik, die die internationalen Vergleichsstudien in methodologischer Sicht auf sich gezogen haben, überrascht an diesem Szenario, daß noch niemand gefragt hat, wieviel von einer 1945 offiziell abgeschafften Überlegenheitsideologie des 'Deutschen an sich' im bildungspolitischen Skandal der deutschen Durchschnittlichkeit tatsächlich steckt."

 
Bank V, Heidecke B (2009)
Gegenwind für PISA. Ein systematisierender Überblick über kritische Schriften zur internationalen Vergleichsmessung,
Vierteljahresschrift für Wissenschaftliche Pädagogik 85(3), 350-361

Review of the books edited by Hopmann et al. 2007 and Jahnke and Meyerhöfer 2006/7; categorization of criticsm.

 
Baumert J, Stanat P, Watermann R (Hrsg.) (2006)
Herkunftsbedingte Disparitäten im Bildungswesen: Differenzielle Bildungsprozesse und Probleme der Verteilungsgerechtigkeit. Vertiefende Analysen im Rahmen von PISA 2000.
Wiesbaden: VS Verlag für Sozialwissenschaften

Die "Befunde sprechen in aller Deutlichkeit gegen das in PISA 2003 gewählte Vorgehen einer Indexbildung für die soziale Herkunft." [Vorwort]
In den Analysen und Interpretationen der OECD finden sich geradezu lehrbuchhafte Musterbeispiele "für die beiden am häufigsten anzutreffenden Fehlspezifikationen bei der Modellierung von Kompositionseffekten." [Baumert/Stanat/Watermann, S. 120]

 
Baumert J, Brunner M, Lüdtke O, Trautwein U (2007)
Was messen internationale Schulleistungsstudien? — Resultate kumulativer Wissenserwerbspro-zesse.
Psychol. Rundsch. 58 (2) 118–128.

Comment on Rindermann 2006. See also reply Rindermann 2007a.

 
Bender P (2005)
PISA, Kompetenzstufen und Mathematik-Didaktik.
J. Math.-did. 26 (3/4) 274–281.

Defends Meyerhöfer 2004b against D. Lind et al. 2005. "Colleagues who are devoted to the PISA test paradigm seem to assume that a large part of the critique from outside is based on misunderstandings. In the article I will discuss this problem along the concept of 'level of competency' as it was developed by the German chapter of the mathematics division of PISA."

 
Online
Bender P (2005)
Neue Anmerkungen zu alten und neuen PISA-Ergebnissen und -Interpretationen.
Vortrag auf der Bundestagung der Gesellschaft für Didaktik der Mathematik, Bielefeld, 1. März 2005.

"Man kann und muss TIMSS, PISA und IGLU ganz grundsätzlich erkenntnis- und wissenschaftstheoretisch kritisieren ... Man kann und muss sich die einzelnen Aufgaben vornehmen und die vielen Mängel aufspießen ... Auch bei Test-Design und -Durchführung gibt es zahlreiche Probleme. Besonders wichtig sind die gesellschafts-, wirtschafts- und bildungspolitischen Bedingungen, Implikationen usw., die in den Berichten und Analysen angesprochen werden, und diejenigen, die nicht angesprochen werden. Ich habe alle diese Gesichtspunkte immer auch in den Blick genommen, einen Schwerpunkt aber darauf gelegt, hart an den PISA-Daten und -Konstrukten selbst zu argumentieren, weil ich meine, dass dabei niemand mehr mit dem Argument ausweichen kann, man ginge nicht wirklich auf PISA usw. ein. Dabei mache ich wohl oder übel eigentlich unzulässige Vergleiche von Punktzahlen u.ä. und Einordnungen in eigentlich ungeeignete bzw. schlecht begründete Kategorien-Systeme mit. Es zeigt sich, dass sich bereits da oft ganz andere Folgerungen ergeben und Interpretationen aufdrängen, als von interessierter Seite in Medien, Politik und Wissenschaft (!) verlautbart. Die gröbsten Fehler und Missbräuche stammen weniger von den PISA- (TIMSS-, IGLU-) Leuten. Allerdings sind diese mit ihrer gesamten Öffentlichkeits-Politik nicht ganz unschuldig, und wenn es nur deswegen ist, dass sie den vielen unzulässigen Schlüssen nicht energisch genug (i.d.R. nämlich gar nicht) entgegentreten."

 
Bender P (2006)
Was sagen uns Pisa & Co., wenn wir uns auf sie einlassen?
pp. 281–337 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"The author discusses PISA, TIMSS and IGLU and shows more or less hidden inconsistencies, shaky argumentations, risky interpretations, and obvious abuse. He reasons directly on the constructs and data of the studies. From a mathematic-didactical point of view, the competence-stage-model of PISA and other comparative studies have enormous errors. It is not suitable to describe both, personal and content-relevant competence stages, and it is, moreover, unsuitable for the integration of both scales. PISA's ignorance of the national curricula is questionable. However the test does not show any validity even for the concept of 'mathematical literacy', which should substitute for the national curricula issue, since, for the majority of the exercises, this competence is either not necessary or even obstructive. Several mathematical didactic standards are violated to fit the characteristics of the exercises into the theoretical test model. Particularly in Germany, the PISA results were abused by political and media elites in order to manipulate public opinion and to serve certain ideologies. PISA shares responsibility for such abuse in two ways. On the one hand there is no official objection against such abuse, and on the other, a biased definition and selection of parameters even furthers the abuse. Especially the influence of the migrations structure is systematically underestimated in favour of an undifferentiated 'social' structure. PISA and other comparative studies neglect the level of performance orientation in different societies, although this has much more influence on the results than most of the studie' 'measured' parameters. In particular, PISA and other comparative studies do not offer any results about the suitability of structured or non-structured school systems, yet conclude, for example, that — upon examination of the migration structure according to PISA points system — Bavaria is among the leading countries in the world."

 
Bender P (2008)
Kann man soziale Durchlässigkeit mit Pisa messen?
Das Gymnasium in Bayern 11/2008, 18–22.

 
Online
Blanke I, Böhm B, Lanners M (2004)
Beispielaufgaben und Schülerantworten.
Le Gouvernement du Grand-Duché de Luxembourg. Ministère de l'Education nationale et de la Formation professionelle.

Als einziges Land hat Luxemburg einige Schülerantworten eingescannt und veröffentlicht. Die Beispiele zeigen, dass die Schüler nicht selten die Intentionen der Prüfer missverstehen und manchmal malen, statt gegen die Uhr zu arbeiten.

 
Blum A, Guérin-Pace F (2000)
De Lettres et des Chiffres. Des tests d'intelligence à l'évaluation du »savoir lire«, un siècle de polémiques.
Paris: Fayard.

Detailed critique of another OECD study (International Adult Literacy Survey).

 
Online
Bodin A (2005)
What does PISA really assess? What it doesn't? A French view
Joint Finnish-French Conference "Teaching mathematics: beyond the PISA survey", Paris 6-8.10.2005.

This paper is focused "on the external validity issue of its mathematics questions. First it seeks to position the PISA item contents against the French mathematical syllabus, trying to identify the overlap of them both. Then it tries to compare the PISA mathematical cognitive demands and competency levels with those implied in some French assessment and examination settings. Underlining some differences between the general PISA design and the French mathematical curriculum and school culture, it also tackles the PISA mathematical items epistemological and didactical validity issues."

 
Bodin A (2007)
What does PISA really assess? What it doesn't? A French view
pp. 21–55 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

Revised version of Bodin 2005. "Der Beitrag konzentriert sich auf die Analyse der externen Validität der Mathematik-Items. Indem PISA-Fragen französischen Assessment-Items gegenübergestellt werden, sollen Überschneidungen, kognitive Voraussetzungen und Unterschiede in den Kompetenzlevels veranschaulicht werden. Dabei zeigt sich, dass PISA und die französischen Tests zum Teil Unterschiedliches messen, und PISA damit nicht den dort angestrebten Zielen entspricht. Hervorgehoben wird aber auch der Beitrag von PISA zur Weiterentwicklung der Forschung."

 
Online
Boe E E, May H, Boruch R F (2002)
Student Task Persistence in the Third International Mathematics and Science Study: A Major Source of Achievement Differences at the National, Classroom, and Student Levels.
Report CRESP-RR-2002-TIMSS1. Philadelphia: Pennsylvania University.

Student engangement in providing answers to the background questionnaire is a strong predictor for achievement in the main test. This implies that test-taking ability and motivation are decisive factors that easily outweigh the specific competences that ought to be measured. "A question can be raised about how much can be learned about the educational determinants of student achievement by comparative research."

 
Bonnet G (2002)
Reflections in a Critical Eye: on the pitfalls of international assessment.
Assessment in Educ. 9 (3) 387–399.

Critical review of PISA 2000. "A pedagogical approach, by closely analysing national performances in relation to specific skills, by trying to understand why some skills are better mastered in some countries, by reflecting on the question of errrors, would certainly have been more informative than constructing macro indicators which can only be interpreted from the point of view of country rankings."

 
Online
Bottani N, Vrignaud P (2005)
La France et les évaluations internationales.
Rapport établi à la demande du Haut Conseil de l'évaluation de l'école (166 pages).

In a study like PISA, there is an inherent conflict between political and scientific interests. Science must differentiate, politics requests simple answers. PISA's focus on one-dimensional ranking is serving politics, not science. It makes the study vulnerable to cultural bias.

 
Bozkurt D, Brinek G, Retzl M (2007)
PISA in Österreich: Mediale Reaktionen, öffentliche Bewertungen und politische Konsequenzen
pp. 321–362 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Mithilfe einer Medienanalyse werden die öffentlichen und politischen Reaktionen in Österreich auf die PISA-Ergebnisse aus den Jahren 2000 und 2003 dargestellt. Dabei stellt sich heraus, dass sich die Reaktionen aus den beiden Jahren sowohl inhaltlich als auch quantitativ erheblich voneinander unterscheiden. Außerdem zeigt sich, dass ungeachtet dessen, was PISA eigentlich zu leisten vermag, höchst widersprüchliche Schlussfolgerungen und politischen Absichten mit PISA untermauert werden. Es scheint so, als könne jeder aus Politik, Wirtschaft, Kultur, Bildung etc. seine Überzeugungen in der PISA-Studie bestätigt finden."

 
Bracey, G W (2005)
RESEARCH: Put out over PISA
Phi Delta Kappan, vol. 86

"I have been dismayed at the uncritical acceptance of international comparisons in this country [the U.S.A.]. It seems to me that otherwise competent researchers and psychometricians abandon all critical facilities when dealing with data from the International Association for the Evaluation of Educational Achievement – the TIMSS studies and PIRLS — or the Organisation for Economic Co-operation and Development — PISA. They go gaga."

 
Bracey, G W (2006)
Reading Educational Research, How to Avoid Getting Statistically Snookered. Portsmouth NH: Heinemann.

"Principles of Data Interpretation: 5. Be sure the rhetoric and the numbers match. 7. Beware of simple explanations for complex phenomena. 13. Do not confuse statistical significance and practical significance. 14. Make no causal inferences from correlation coefficients. 15. Any two variables can be correlated. The resultant correlation coefficent might or might not be meaningful. 20. Standardized norm-referenced tests will ignore and obscure everything that is unique about a school. 21. Scores from standardized tests are meaningful only to the extent that we know that all children have had a chance to learn the material which the test tests. 23. If a situation really is as alleged, ask: 'So what?'"

 
Online
Bracey, G W (2007)
A Test Everyone Will Fail
The Washington Post, Thursday, May 3, 2007, Page A25

The Government Accountability Office; the National Academy of Sciences; the National Academy of Education; and the Center for Research on Evaluation, Student Standards and Testing: "All those august organizations have rejected the NAEP achievement levels because the process is confusing to the people who try to set the levels and because the results are inconsistent: Children can't answer questions they should be able to and can answer questions they shouldn't be able to. The levels also give what the National Academy of Sciences called 'unreasonable' results... Recently, Zbigniew Brzezinski wrote in The Post that constant references to a 'war on terror' 'stimulated the emergence of a culture of fear. Fear obscures reason, intensifies emotions and makes it easier for demagogic politicians to mobilize the public on behalf of policies they want to pursue.' Happens all the time in education. The most recent phony alarm comes from Eli Broad and Bill Gates, who are putting up $60 million hoping to 'wake up the American people.' If the fear-mongers can scare you sufficiently (how many times have you heard the phrase 'failing schools' in the past five years?), you might permit them to do to your public schools things you would otherwise never allow."

 
Online
Bracey, G W (2008)
The Leaning (Toppling?) Tower of PISA: Facts and Doubts about International Comparisons in Education.
Dissent Magazine, August 21, 2008.

Review of Hopmann et al. 2007.

 
Online (restricted)
Braun H, Zhang J, Vezzu S (2010)
An Investigation of Bias in Reports of the National Assessment of Educational Progress.
Educational Evaluation and Policy Analysis (in press)

"This article investigates plausible explanations for the observed heterogeneity among jurisdictions in the exclusion rates of students with disabilities and English language learners in administrations of the National Assessment of Educational Progress (NAEP)... The conclusions are that for many states there is a strong likelihood of bias in the results reported and that neither the current NAEP procedure nor the full-population estimates methodologies constitute an ideal solution to the problem."

 
Online
Homepage
Brügelmann H (2008)
Fieber genau zu messen ist noch keine Diagnose, Fieber erfolgreich zu senken keine Therapie. Wie Leistungstests in ihren Leistungsmöglichkeiten durch PISA & Co überfordert werden.
Beitrag zum Forum "Schule ist mehr als PISA — Zur Bedeutung reformpädagogischer Ansprüche an die schulische Bildung von heute" der ZEIT-Stiftung in Hamburg am 6./7. März 2008.

 
Brüsemeister T, Eubel K-D (eds.) (2008)
Evaluation, Wissen und Nichtwissen.
Wiesbaden: VS Verlag für Sozialwissenschaften.

"Eine auf Evaluation basierende Steuerung impliziert die Annahme, zu einem 'mehr' and Wissen zu gelangen und so Bildungssysteme besser steuern zu können. Dieser Frage gehen die Autoren des Bandes nach — ebenso wie der Frage, ob das vermehrte Wiessen auch mit vermehrtem Nichtwissen einhergeht ..."

 
Cannell J J (1988)
Nationally Normed Elementary Achievement Testing in America's Public Schools: How All 50 States Are Above the National Average
Educational Measurement: Issues and Practice 7 (2) 5-9.

Discovery of the "Lake Wobegon effect": Over the years, test scores tend to increase. "Increased achievement is by no means the whole explanation for this finding." See also:

  • Vol. 7 issue 4, with commentaries by representatives of major test publishers and officials in the U.S. Department of Education, and a response by Cannell.
  • An extended report by Cannel from 1989.
  • A summary in the New York Times (online).

 
Carroll J B (1987)
The National Assessments in Reading: Are We Misreading the Findings?
Phi Delta Kappan 68, 424–430.

At the age of fifteen, the capacity of abstract reasoning is still in development.

 
Online
von Collani E (2001)
OECD PISA - An Example of Stochastic Illiteracy?
Economic Quality Control 16 (2) 227–253.

Review of the first PISA reports, from a statistician's point of view.

 
Online
DESCO [Direction générale de l'Enseignement scolaire Ministère de l'Éducation nationale, France] (2003)
Évaluation des connaissances et des compétences des élèves de 15 ans: questions et hypothèses formulées à partir de l'étude de l'OCDE.
Rencontres de la DESCO, 31 mai 2002.

Hinweis eines französischen Regierungsbeamten, dass man aus den Kontextdaten keine verlässlichen Schlüsse ziehen könne, wie schwer man bei der OECD Gehör finde und wie opak die Entscheidungsprozesse seien.

 
Dolin J (2007)
PISA — an Example of the Use and Misuse of Large-Scale Comparative Tests
pp. 93–125 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Der Beitrag zeigt, dass die Entscheidung für oder gegen einen bestimmten technischen Aspekt oder ein bestimmtes Verfahren unvermeidlich Teil des zugrunde liegenden Wertesystems einer Evaluationsstudie ist. PISA ist also kein neutraler Test objektiver Fähigkeiten, sondern beinhaltet die Entscheidung für einen bestimmten, wenigstens in Dänemark sehr umstrittenen Typus von Bildung. Gleichzeitig weist der Autor darauf hin, dass PISA einerseits ein großes Potential in sich birgt, das es weiter zu entwickeln gilt, andererseits eine Studie dieser Art niemals fähig sein kann, ein Bildungssystem in seiner ganzen Fülle zu beschreiben."

 
Kurzfassung
Ebenrett H J, Hansen D, Puzicha K J (2003)
Verlust von Humankapital in Regionen mit hoher Arbeitslosigkeit.
Aus Politik u. Zeitgesch. B 06-07, 25-31.

"Unsere Befunde legen nahe, den fast ausschließlich bildungspolitischen Ansatz bei der öffentlichen Ursachenforschung für das schlechte Abschneiden deutscher Schüler im PISA-Vergleich zu relativieren und durch Determinanten der wirtschaftlichen Situation zu erweitern. Insbesondere sprechen die Ergebnisse dafür, in Arbeitslosigkeit und Abwanderung nicht weniger bedeutsame Bedingungsfaktoren für Schulleistungsunterschiede zu sehen als z.B. in Schulformen, Klassengrößen und sonstigen Rahmenbedingungen des Bildungs- und Ausbildungssystems."

 
Online
Fertig M (2004)
What Can We Learn From International Student Performance Studies? Some Methodological Remarks.
RWI: Discussion Paper No. 23.

The interpretation of PISA results poses a severe identification problem. Conclusions can only been drawn if "rather strong assumptions" are made. "Different identification assumptions typically lead to different results." "Different studies on, for instance, the impact of school ressources typically reach different conclusions even if they utilize the same dataset." — "Inference on the determinants of cognitive achievement" has to invoke assumptions that are "obviously difficult to justify" ... "Since the education systems of countries typically differ in more than one aspect, it is impossible to identify the driving force behind differences in country-specific fixed-effects." Approximating family inputs by observable characteristics is also not without problems. Since the PISA study is only a cross-section, "the problem of unobserved heterogenity is especially severe". Using data on more than one country requires the additional assumptions that inherited abilities and student inputs are equally distributed across countries.

 
Fischer G H, Molenaar I W (eds.) (1995)
Rasch Models. Foundations, Recent Developments, and Applications.
New York: Springer.

Mathematisch solide Einführung in die Item-Response-Theorie.

 
Online
Flitner E (2006)
Pädagogische Wertschöpfung. Zur Rationalisierung von Schulsystemen durch public-privatepartnerships am Beispiel von PISA.
S. 245-266 in Jürgen Oelkers, u.a. (Hg.): Rationalisierung und Bildung bei Max Weber. Festschrift zur Emeritierung von Helmut Fend. Bad Heilbrunn.

PISA is run by huge companies who serve — and create — worldwide demand for all kind of tests... By participating in PISA, German politicians give up souverainty about what should be learned in German schools.

 
Foshay A W (ed.) (1962)
Educational achievements of thirteen-year-olds in twelve countries.
Hamburg: UNESCO Institute for Education.

How it all began: One of the first international school assessments.

 
Frederiksen N, Mislevy R J, Bejar I I (Hrsg) (1993)
Test Theory for a New Generation of Tests.
Hillsdale: Lawrence Erlbaum.

Collection of essays. Among them a contribution by Mislevy, at the time of writing an employee of the Educational Testing Service, who says about the one-dimensional Rasch model: "It is only a slight exaggeration to describe the test theory that dominates educational measurement today as the application of 20th century statistics to 19th century psychology. Sophisticated estimation procedures ... applied within psychological models that explain problem-solving ability in terms of a single, continuous variable. This caricature ... falls short for placement and instruction problems based on students' internal representations of systems, problem-solving strategies, or reconfiguration of knowledge as they learn ... Educational measurement faces today a crisis that would appear to threaten its very foundations."

 
Online (restricted)
Freudenthal H (1975)
Pupils achievements internationally compared — the IEA.
Educational Studies in Mathematics 6, 127–186.

Sharp critique of one of the first international school studies. Several points still apply to PISA: unequal enrollment rates, the unsolved translation problem, lacking curricular validity, reading items that contain deeper science than the science items, overinterpretation of numerical outcomes, Kafkaesk confusion in the documentation and in the underlying decisions, dogmatic rejection of criticism.

 
von Freymann T (2003)
Die finnische Schule - ein Modell für Deutschland ? Zu den Ursachen der finnischen PISA-Ergebnisse.
pp. 277–301 in:
Hansel 2003 (ed.): PISA- und die Folgen ? Die Wirkung von Leistungsvergleichsstudien in der Schule. Herbolzheim: Centaurus.

Die finnischen PISA-Ergebnisse sind von Lappland bis Mittelfinnland gleichmäßig, nur nicht für die Provinz Uusimaa mit dem Ballungsraum Helsinki-Espoo-Vantaa. "Dort sind sie schlechter... 'mitteleuropäische Verhältnisse' bedeuten offensichtlich eine ungünstigere Lernumwelt als althergebrachte finnische."
Die in Deutschland "weit verbreitete Vorstellung, dass finnische Schulen mit Hilfe binnendifferenzierter Unterrichtsmethoden in sich ausgesprochen heterogene Klassen auf ein relativ homogenes Leistungsniveau brächten, entspricht also nicht der Realität. Die Schülerströme in Ballungsräumen sortieren sich aufgrund der curricularen Profilierung, des Fremdsprachenangebots und der freien Schulwahl so, dass manche Schulen mehr oder weniger einem deutschen Gymnasium entsprechen (und das schon ab Klasse 3, nicht etwa erst ab Klasse 5!), andere eher der deutschen Hauptschule."
"Den Studiengang 'Lehramt' führen nur Universitäten, die über eine 'Übungsschule' in eigener Trägerschaft verfügen... Künftige Klassenlehrer müssen alle Fächer studieren, die sie im Schuldienst unterrichten werden... Das Prinzip der Fachkompetenz ... bedeutet, dass der finnische Studiengang für das Lehramt 'Grundschule' völlig anders angelegt ist der deutsche."
Der Unterricht ist "im Allgemeinen eher konservativ, d.h. lehrerzentriert, handwerklich solide, aber keineswegs 'alternativ', 'kreativ', 'phantasievoll', wie es dem deutschen Wunschbild entspräche."
"Das wichtigste Merkmal finnischer Schulen ist ihre Kleinheit - die drei Prozent, die über 500 Schüler haben, haben die PISA-Ergebnisse gewiss nicht entschieden! - und die kulturelle Homogenität ihrer Klientel. Irgend eine Art von 'Systemkopie' kann es darum nicht geben... Zwei zentrale Elemente des finnischen Schulwesens vor allem könnten hierzulande übernommen werden: ... Die Personalbesetzung und die systematische Förderung der schwachen Schüler... Alle Maßnahmen, die dazu führen, dass den Lehrkräften an deutschen Schulen weitere unterrichtsfremde Aufgaben aufgebürdet werden... können auf Dauer die Effektivität von Unterricht nicht erhöhen."

 
Online
Füller C (2007)
Pisa hat einen kleinen, fröhlichen Bruder
taz vom 5. 12. 2007.

Auf der Pressekonferenz, in der die Ergebnisse von PISA 2006 vorgestellt wurden, trat zutage, dass sich das deutsche PISA-Konsortium und die OECD über die Interpretation ihrer Daten nicht mehr verständigen können. Die OECD droht damit, der deutschen Ergänzungsstudie den Markennamen "PISA" zu entziehen.

 
Online (restricted)
Ganzeboom H B G, De Graaf P M, Treiman D J (1992)
A Standard International Socio-Economic Index of Occupational Status.
Soc. Sci. Res. 21 (1) 1–56.

PISA's measure of students' socio-ecomonic background is based on this incredibly shallow compilation.

 
Gellert (2006)
Mathematik "in der Welt" und mathematische "Grundbildung". Zur Konsistenz des mathematikdidaktischen Rahmens von PISA.
pp. 375–390 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"The PISA study wants to suggest that the construction of test exercises and the interpretation of results were provided with a solid footing on a consensual mathematic-didactical theory foundation in the scientific community. The test exercises operationalized standardization of mathematical basic education without an alternative, which was derived from allegedly uncontentious foundations of mathematical didactics. The chapter discusses the extent the single components of this construct fit, substitute for, or contradict with one another with regard to the doubtful compatibility with the works by Hans Freudenthal about mathematical didactical phenomenology and the idea of a 'mathematical basic education' in the framework of the PISA study."

 
Online
Giesecke H (2004)
Wer braucht (noch) Erziehungswissenschaft?
Neue Sammlung (2)151-165

"Je besser die Erziehungswissenschaft sich als moderne Wissenschaft entfaltet, um so entbehrlicher scheint sie als Berufswissenschaft zu werden. Ihre Bedeutung für das Handeln der in der pädagogischen Praxis Tätigen und für die Ausbildung derjenigen, die dort künftig wirken werden, ist umstrittener denn je. Längst ist von 'zwei Kulturen' die Rede, die immer mehr auseinander driften und sich immer weniger zu sagen haben...
Zur Zeit steht die empirische Bildungsforschung in hohem Ansehen, was in erster Linie der öffentlichen Debatte über die PISA-Studien zu verdanken ist. Mit deren Ergebnissen und mit denen weiterer Forschungen dieser Art sind jedoch Erwartungen verbunden, die aller Voraussicht nach enttäuscht werden müssen...

 
Goldstein H, Wood R (1998)
Five decades of item response modelling
Brit. J. Math. Statist. Psychol. 42, 139–167.

A historical and theoretical review "of so called item response theory, more accurately described as item response modelling." Looking back at 50 years, "a disappointing lack of advance" is found.

 
Preprint
Goldstein H (2004)
International comparisons of student attainment: some issues arising from the PISA study.
Assessment Educ. 11 (3) 319–330.

"The article comments on the restricted nature of the data modelling and analysis, and resulting interpretation."

 
Online (restricted)
Goldstein H, Bonnet G, Rocher T (2007)
Multilevel Structural Equation Models for the Analysis of Comparative Data on Educational Performance
J. Educ. Behav. Stat. 32 (3) 252–286.

Critical re-analysis of PISA 2000 reading data. "The combination of different ages of starting school and different allocation to year groups on the basis of birth date and repetition of grades makes any meaningful comparison extremely difficult... even within a single proficiency domain, the data structure appears to contain at least two dimensions... even in the onedimensional case, the (Rasch) assumption of equal item loadings is not supported by the data."

 
Online
Goldstein H (2008)
Comment peut-on utiliser les études comparatives internationales pour doter les politiques éducatives d'informations fiables ?
Revue française de pédagogie 164, 69-76.

Short review of many different problems of PISA&Co.

 
Online (restricted)
Grek S (2009)
Governing by numbers: the PISA 'effect' in Europe
J. Educ. Policy 24 (1) 23–27.

"This paper examines the Programme for International Student Assessment (PISA), which has become a major and influential component of the Organisation for Economic Cooperation and Development's (OECD) educational work. This measure of comparative performance of educational systems of member and other nations is based on tests commissioned by the OECD. The paper discusses the role of the OECD in establishing the 'comparative' turn and also describes PISA, its management and effects. It provides three examples of the impact of PISA in Finland, Germany and the UK before moving the focus to its impacts at the transnational level, through an examination of how key European policy actors see PISA and its effects. The paper concludes that PISA, through its direct impact on national education systems in Europe and beyond, has become an indirect, but nonetheless influential tool of the new political technology of governing the European education space by numbers... Responsiveness to PISA across the different participating nations and by other IOs can be seen as an instance of what Luhmann has called 'externalisation'. That is, the reference to 'world situations' enables policy-makers to make the case for education reforms at home that would otherwise be contested. Thus local policy actors are using PISA as a form of domestic policy legitimation, or as a means of defusing discussion by presenting policy as based on robust evidence... Moreover, the construction of PISA ... has powerful effects on curricula and pedagogy in participating nations."

 
Hagemeister V (1999)
Was wurde bei TIMSS erhoben? Über die empirische Basis einer aufregenden Studie.
Die Deutsche Schule 91 (2) 160–177.

Kritik an den Naturwissenschaftsaufgaben, gestützt auch auf Schülerinterviews. Die Aufgaben sind oft unpräzise formuliert, schlecht übersetzt und nicht frei von Vokabelfehlern. Fehlende Test-Routine bewirkt erhebliche Verzerrung; es ist "unübersehbar", dass die Aufgaben "die Schulrealität in Nordamerika widerspiegeln".

 
Hagemeister, V (2006)
Kritische Anmerkungen zum Umgang mit den Ergebnissen von PISA.
pp. 339–374 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"This chapter contradicts the usual educational-political and didactical conclusions taken from the PISA test and similar comparative studies. The author argues in favour of smaller classes, particularly for children who lack educational support at home. He appeals for a relief for teachers from therapies of specific learning disabilities and urges for changes in examination requirements for systems with shortened course terms. He reasons against central examination with relevance of marks and demands state supported full-day school care programs, particularly for children with certain social indications. He suggests target oriented language support of migrants by specialized teachers, parallel to the regular school curriculum."

 
Online
Hagemeister, V (2007-)
Falsche Akzente in der von PISA ausgelösten bildungspolitischen Diskussion.

Webseite mit Texten, Tabellen und Verweisen; eigene Auswertungen der PISA-Daten: "Die unterschiedliche Herkunft und Anzahl der Immigranten wurde unzureichend berücksichtigt ... Die PISA-Mittelwerte sagen viel über die Ausländerpolitik, fast gar nichts über Schulsysteme aus ... Aus Querschnittsdaten [können] keine wissenschaftlich fundierten Aussagen über die Wirkung der Klassenfrequenz gewonnen werden".

 
Haladyna T M, Nolen S B, Haas N S (1991)
Raising Standardized Achievement Test Scores and the Origins of Test Score Pollution.
Educ. Researcher 20 (5) 2–7.

Test score pollution "increases or decreases test performance without connection to the construct represented by the test, producing construct-irrelevant test score variance. ... There is reason to believe that the problem of test score pollution is pervasive in American education."

 
Hambleton R K, Swaminathan H, Rogers H J (1991)
Fundamentals of Item Response Theory.
Newbury Park: Sage.

Um die Modellgültigkeit der Item-Response-Theorie zu überprüfen, sollte man sich nicht auf automatisierte statistische Tests verlassen, sondern vor allem die Item-Charakteristiken visuell beurteilen.

 
Hansel T (ed.) (2003)
PISA- und die Folgen ? Die Wirkung von Leistungsvergleichsstudien in der Schule.
Herbolzheim: Centaurus.

 
Buchhandel
Book site
Hopmann S T, Brinek G, Retzl M (eds.) (2007)
PISA zufolge PISA — PISA According to PISA. Hält PISA, was es verspricht? Does PISA Keep What It Promises?
Reihe Schulpädagogik und Pädagogische Psychologie, Bd.6. Wien: Lit-Verlag.

Collection with essays (part in German, part in English) by Allerup, Bodin, Bozkurt et al., Dolin, Hopmann, Jahnke, Langfeldt, Meyerhöfer, Olsen, Prais, Puchhammer, Sjoeberg, Uljens, Wuttke. Preface by Olechowski. —
Aus dem Pressetext: "Keine andere Bildungsforschung hat in den letzten Jahren soviel Furore gemacht wie PISA. In vielen Ländern, besonders aber in Österreich und Deutschland, scheinen viele in Politik und Öffentlichkeit anzunehmen, PISA sei eine unabhängige wissenschaftliche Bewertung der Leistungsfähigkeit bzw. der Schwächen nationaler Bildungssysteme und könne nachweisen, woran das jeweilige Schulwesen krankt. Dabei wird oft übersehen, dass nach dem Willen des Auftragsgebers OECD die PISA-Studien in erster Linie politischen und nicht wissenschaftlichen Zwecken dienen, und dass PISA ausdrücklich nicht darauf aufbaut, ob das, was gemessen wird, in der Schule überhaupt gelernt werden kann oder soll. In den letzten Jahren ist vereinzelt wissenschaftliche Kritik am Design und an der Durchführung der PISA-Studien laut geworden. Bislang ist solche Kritik fast nie über den jeweiligen nationalen Rahmen hinaus gedrungen und konnte deshalb leicht als lokal begrenzter Einzelfall ohne Bedeutung für das Ganze abgetan werden. Eine umfassende Erwiderung auf diese Kritik hat es von Seiten der PISA-Forschung bis jetzt nicht gegeben, aber auch keine Richtigstellung der chronischen Irreführung der Öffentlichkeit. Der vorliegende Band enthält wissenschaftliche Beiträge aus sieben europäischen Ländern, die unabhängig Leistungen und Grenzen des PISA-Projekts analysieren. Gefragt wird, ob PISA methodologisch den wissenschaftlichen Ansprüchen an international vergleichende Forschung gerecht wird. Untersucht werden unter anderem Stichproben, auf die sich PISA stützt, Fragen, die PISA stellt, sowie die Auswertung und schliesslich die Präsentation der Ergebnisse durch PISA selbst. Ungeachtet der Verdienste der PISA-Forschung ist das Ergebnis ernüchternd. Es lässt sich in zwei Hauptpunkten zusammenfassen:

  • Was PISA misst, ist keineswegs repräsentativ für die jeweiligen Wissens- und Schulkulturen und ist dies in der Regel nicht einmal in den Fachgebieten, die es selbst ausdrücklich hervorhebt (wie Mathematik und Naturwissenschaften).
  • Die konkrete Durchführung ist mit so vielen Schwachstellen, Unsicherheiten und Fehlerquellen behaftet, dass die populären internationalen und nationalen (Schul-) Vergleiche wissenschaftlich unhaltbar sind.

Zusammen genommen ergibt sich, dass PISA im besten Fall eine interessante Jugendstudie über die mehr oder weniger zufällige Verteilung eines sehr testspezifischen Wissens in den beteiligten Ländern ist. Wissenschaftliche Vergleiche der Leistungsfähigkeit der jeweiligen Bildungssysteme oder gar einzelner Schulformen und Schulen lassen sich so nicht begründen. PISA hält nicht, was PISA verspricht — und kann das in seinem Rahmen auch nie leisten! Repräsentanten der PISA-Forschung in Österreich und Deutschland waren eingeladen, in diesem Band zur vorgebrachten Kritik Stellung zu nehmen. Leider hat dieser Einladung niemand Folge geleistet, vielleicht auch deshalb, weil selbst bei Widerlegung einzelner Punkte die öffentliche Aufmerksamkeit sichernden nationalen und internationalen Rankings nicht zu retten gewesen wären."

 
Online
Hopmann S T, Brinek G (2007a)
Introduction. PISA According to PISA — Does PISA keep what it promises?
pp. 9–19 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Seit Veröffentlichung der ersten PISA — Ergebnisse haben sich auch einige kritische Stimmen zur OECD-Studie zu Wort gemeldet. Allerdings blieb eine eingehende methodologische Debatte bisher aus. Das Buch sammelt daher Beiträge zur methodologischen Kritik an PISA aus den unterschiedlichsten Bereichen und Ländern. Als Ergebnis muss festgestellt werden, dass insbesondere die beliebten nationalen und internationalen PISA-Vergleiche mit so vielen Unsicherheiten und Fehlerquellen behaftet sind, dass sie wissenschaftlich gesehen so gut wie unbrauchbar sind. Abschliessend wird der Umgang der PISA-Konsortien mit Kritik diskutiert ..."

 
Hopmann S T (2007b)
Epilogue: No Child, No School, No State Left Behind: Comparative Research in the Age of Accountability
pp. 363–415 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Im Schlusskapitel wird die Frage gestellt, warum und unter welchen Bedingungen das Projekt PISA Erfolg haben konnte. Wie kommt es, dass in manchen Ländern die gesamte Bildungspolitik in den 'schiefen' Schatten von PISA gerät, während PISA andernorts nur eine Stimme unter vielen ist? Es zeigt sich, dass es für die Leistungen und Schwächen des PISA-Projektes gute historische und aktuelle Gründe gibt. PISA hat — wie es scheint — den meisten Erfolg mit dem, wozu es am wenigsten taugt, nämlich mit seinen methodisch unhaltbaren nationalen und internationalen Vergleichen der Leistungsfähigkeit der jeweiligen Bildungssysteme."

 
Hörmann B (2007)
Disappearing Students. PISA and Students With Disabilities
pp. 157–174 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Die Autorin bringt das Problem der systematischen Marginalisierung von Kindern mit Behinderung zur Sprache, das auch im Kontext von PISA tragend wird. Die Tests ergeben ein verzerrtes Bild, wenn Kinder mit Behinderungen (gleich welcher Art) ungleich berücksichtigt werden. Es wird dabei gezeigt, wie wenig dieses Problem in Europa und auch in Österreich überhaupt beachtet wird, obwohl es durchaus Möglichkeiten und Wege gäbe, Kinder mit speziellen Bedürfnissen in die Testung mit einzubeziehen und ihre Leistungen adäquat zu messen."

 
Jablonka E (2006)
Mathematical Literacy: Die Verflüchtigung eines ambitionierten Test-Konstrukts in bedeutungslose PISA-Punkte.
pp. 247–280 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"The chapter investigates whether the students' PISA scores in mathematical literacy can be considered to be empirical evidence of the construct described in the theoretical framework of the study. Given the nominal definition of mathematical literacy, how were the test items developed or chosen? Is the theoretical framework consistent? Is the use of the scaling model justified, which implies assumptions on the structure of the competency to be measured? It emerges that the global and vague definition of mathematical literacy loses its meaning through its operationalization in the form of PISA test items. Scaling [the scores] using a model from the most probable testing theory proved itself to be unsuitable. The scaling model is based on assumptions which are not suggested either by the definition of the construct or by the type of items used within mathematical basic education described in the theoretical framework. However, the model is maintained despite its theoretical and empirical inconsistencies in PISA. Consequently, the student scores do not have well-founded interpretation and do not allow for drawing conclusions about interrelationships with other data generated by the study."

 
Buchhandel
Jahnke T, Meyerhöfer W (eds.) (2006, revised 2nd edition 2007)
PISA & Co — Kritik eines Programms.
Hildesheim: Franzbecker.

Sammelband mit Beiträgen von Bender, Gellert, Hagemeister, Jablonka, Jahnke, Keitel, Meyerhöfer, Sill, Wuttke.
Rezension: Wittmann G (2007): Praxis Mathematik 49 (14) 46f.

 
Jahnke T (2006)
Was sagen uns Pisa & Co., wenn wir uns auf sie einlassen?
pp. 1–23 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"The author critically discusses PISA and other comparative studies as positivistic and flawed interpretations of the world, lacking in new insights. He shows theoretical and methodical errors in TIMSS and PISA and reflects on the possible motivations of its researchers. He compares the concept of mathematical education (which he sees as a means of gaining formal insights and also as a methodological process) and prevailing educational standards and argues against the predominance of practical usage."

 
Jahnke T (2007a)
Deutsche Pisa-Folgen
pp. 305–320 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"In diesem Beitrag werden die Folgen von PISA in Deutschland, vor allem in Bezug auf die Beschlüsse der deutschen Kultusministerkonferenz zum Bildungsmonitoring und zu den nationalen Bildungsstandards in Mathematik thematisiert. Unter Einbezug amerikanischer Forschung wird die Einführung eines umfassenden Bildungsmonitorings in Deutschland als Gefahr der Etablierung einer 'Teaching-to-the-Test'-Kultur kritisiert. Zudem werden beispielhaft einzelne, am PISA-Vorbild orientierte Aufgaben der Bildungsstandardtests einer Analyse unterzogen. Es zeigt sich, dass der Großteil der Aufgaben didaktisch unsachgemäß und zum Teil direkt fehlerhaft konstruiert ist. Allerdings sei fraglich, so der Autor, ob selbst eine fundamentale methodologische Kritik die Geltungsmacht von PISA in Deutschland und deren Einfluss auf die gegenwärtige Bildungspolitik erschüttern könne. "

 
Online
Jahnke T (2008)
Pisa ist ein Zufallsgenerator.
Die Welt, 15. 12. 2007.

"Mal langsam: Hier werden in einem 120-minütigen Test, der sich auf wenigstens drei Schulfächer bezieht, die Leistungen ... auf ein Hundertstel genau 'interkulturell' gemessen, ohne dass man sich um die Befindlichkeit der Schüler, ihre Bereitschaft, den Test ernst zu nehmen, ihre Vertrautheit mit Ankreuzaufgaben, ihren Lehrplan oder die Praktiken der beteiligten Länder bei der Auswahl und dem Ausschluss von Schulen und Schülern, die Qualität der Aufgaben und ihrer Übersetzungen schert und Aufschluss über die eingesetzten statistischen Verfahren gibt, die solche Wunderpräzision ermöglichen sollen. Und die Resultate werden in Deutschland geglaubt, als kämen sie nicht aus Paris, sondern aus Rom."

 
Jahnke T (2008)
Die PISA-Unternehmer
Forschung & Lehre, 15, 26–27

"So profitiert etwa die empirische Bildungsforschung nahezu unmäßig von dieser Mutter aller Tests. Man kann in diesem Bereich geradezu von einer Überhitzung der Konjunktur sprechen. Seitenweise werden Professuren in dieser Disziplin ausgeschrieben. Man fragt sich, was diese Armada in den nächsten Jahrzehnten ihrer Berufstätigkeit, so sie nicht über diesen Horizont hinauswachsen, alles wird messen."

 
Keitel C (2006)
Der (un)heimliche Einfluss der Testideologie.
pp. 25–58 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"The chapter first demonstrates, based on a short history of testing, that although test methods have been contiuously, formally, refined, and their administration improved and simplified enormously — particularly by means of using computers — no substantial change or development in the basic approach of testing has been established. The implicit preliminary assumptions and prejudices have remained the same. The lack of theoretical proof and obvious discrepancies were not eradicated, but only appear more obscure. Still, the functional purposes served by the latter are the same. The preliminary assumptions and social dimensions of testing are discussed and the consequences for mathematical education are shown. The problem will be particularly identified for the PISA construct of 'Mathematical Literacy'."

 
Online
Kießwetter K (2002)
Unzulänglich vermessen und vermessen unzulänglich: PISA u. Co.
Mitt. Dtsch. Math.-Ver. (4) 49–58. Mit freundlicher Genehmigung des Autors und der DMV auch in unserem
Archiv.

"Das Hauptanliegen meines Beitrags ist es, handwerkliche Mängel in den Aufgabenstellungen bei PISA u. Co., Einseitigkeit und Unbedachtheit in der hinterlegten Ideologie von gutem Mathematikunterricht und inbesondere prinzipiell unvermeidbare Unzulänglichkeiten bei jedem derartigen Testdesign deutlich zu machen und dadurch eine sachlich-detaillierende Diskussion über die Wertigkeit der Ergebnisse auf den Weg zu bringen. Insbesondere diejenigen Folgerungen aus den PISA-Ergebnissen, welche Unterrichtspraxis zumindest für eine längere Zeit irreversibel verändern könnten, dürfen erst dann gezogen werden, wenn klar ist, was uns diese Ergebnisse fundiert sagen können und zu sagen haben, — und was nicht!
Ein weiteres Anliegen besteht darin, zur Reflexion über soziologische und psychologische Prozesse anzuregen, welche als Erklärung dafür dienen können, daß in unserer Mediengesellschaft immer wieder verkürzende Wissenschaftlichkeit einen hohen Stellenwert hat, während Überlegungen beiseite geschoben werden, welche die hohe Komplexität der Vorgaben nicht simplifizierende Modellierungen verfälschen — wie dies bei PISA u.a. durch die besser/schlechter–Linearisierungen geschieht. Es ist in diesem Zusammenhang zu fragen, warum derartige Verhaltensweisen sich sogar in gewissen wissenschaftlichen Bereichen ausbreiten — wider das, was man als wissenschaftliches Ethos bezeichnen könnte."

 
Online
Klemm K (2006)
Fünf Jahre nach dem PISA-Schock. Interview mit WDR.de.

Klaus Klemm ist Mitglied im wissenschaftlichen Beirat von PISA. In diesem Interview bezeichnet er ein wesentliches Element der Studie, die Ranglisten, als ein "Spiel", und wirft einem Kritiker vor, es sei ein Fehler, dieses Spiel mitzuspielen. Wenige Sätze später jedoch spielt er selbst wieder mit und bewertet einen bestimmten Rangplatz in einer speziellen Auswertung als zentrales Ergebnis von PISA - ein Ergebnis, das im übrigen aus der 2000er Runde stammt und zum Zeitpunkt des Interviews schon überholt war.

 
Online
Klemm K (2008)
Schulforscher, aufgepasst.
DIE ZEIT, 15.05.2008 Nr. 21

"Manchmal stiften Untersuchungen wie die Pisa-Studie mehr Verwirrung, als dass sie Klarheit schaffen. Schuld daran sind auch die Wissenschaftler, die sie verfassen... Ein Beispiel für den irritierenden Umgang mit Definitionen ist der Gebrauch des Begriffs 'Risikogruppe'... Zum einen findet sich in den Veröffentlichungen der Pisa-Konsortien an keiner Stelle ein Hinweis darauf, wie sie zu der Grenzziehung gekommen sind, unterhalb derer sie junge Menschen der Risikogruppe zurechnen. Zum anderen verblüfft, dass diese Grenzziehung willkürlich wechselt... Nicht minder verwirrend sind die Indikatoren, die in den Pisa-Studien zur Darstellung des Zusammenhangs von sozialer Herkunft und Bildung angeboten werden."

Lesenswert auch die Antwort von Prenzel, Baumert und Klieme in Nr. 23, die ausdrücklich nur die deutsche Pisa-Studie verteidigen: "Unklarheit stiften andere". Dagegen wiederum wehrt sich v. Meyer von der OECD in Nr. 25: "Noch ein falscher Verdacht".

 
Kohn A (2000)
The Case Against Standardized Testing. Raising the Scores, Ruining the Schools.
Portsmouth NH: Heinemann.

Children in the U.S. "are tested to an extent that is unprecedented in our history and unparalleled anywhere else in the world. Politicians and businesspeople, determined to get tough with students and teachers, have increased the pressure to raise standardized test scores. Unfortunately, the effort to do so typically comes at the expense of more meaningful forms of learning."
"First, beware of tests that are timed ... Second, you should worry if tests are given frequently... Third, be prepared to protest if tests are given to young children... Finally, look out for tests that are 'norm-referenced'. ... Norm-referenced tests (NRT) are not about assessing excellence; they are about sorting students (or schools) into winners and lossers. The animating spirit is not 'How well are they learning?' but 'Who's beaten whom?' ... When specialists sit down to construct an NRT, they're not interested in making sure the questions cover what is most important for students to know. Rather, their goal is to include questions that some test-takers — not all of them, and not none of them — will get right. They don't want everyone to do well on the test..."
"Standards aren't the main ingredient that's low in supply."
"Those allegedly being helped will be driven out."
Standardized tests are "not like the weather, something to which we must resign ourselves... They are not a force of nature but a force of politics — and political decisions can be questioned, challenged, and ultimately reversed."

 
Online
Köller O (2006)
Kritik an PISA ist unberechtigt.
Interview mit bildungsklick.de, 27. Nov. 2006.

"Die Kritik, die häufig geübt wird, funktioniert so, dass man sich eine oder ganz wenige Aufgaben als pars pro toto herausnimmt und daran die ganze Studie misst und schlecht macht. Man hat das Gefühl, dass diejenigen, die diese harte Kritik äußern, nicht genug vom Kuchen abbekommen und dass möglicherweise auch Neid in der Kritik steckt."

 
Koretz D (2008)
Measuring Up. What Educational Testing Really Tells Us.
Cambridge, Mass.: Harvard University Press.

"Testing has become the subject of intense controversy, and quite a number of polemics have been published in recent years, both pro-testing and anti-testing. This book is not among them ... Rather, I want to clarify both the strengths and the limitations of achievement testing ...
International comparisons ... have become a tremendously powerful influence on the public debate and on policy ... What seems to interest most people most is the horse race, the ranking of countries in terms of students' performance... Most often, the conclusions based on the data are somewhat vague ... The notion of 'international mean' is useless ...
PISA and TIMSS tests rank countries quite differently ... The fact that a difference is statistically significant is not protection enough ... Occasionally, even large differences turn out not to be consistent from one test to another ... who treat either one of these assessments as the definitive answer ... would be on very thin ice.
And this points out one of the best ways to avoid misusing test data: don't treat any single test as providing the 'right', authorative answer. Ever. When possible, use more than one source of information about achievement — results from additional tests, or information from other sources entirely."

 
Kraus J (2005)
Der PISA-Schwindel.
Wien: Signum.

Klappentext: "Dieses Buch will bewusst gegen den Strich bürsten, denn die PISA-Studien werden seit ihrer Veröffentlichung in einem Maße missbraucht, dass dies die eigentliche Katastrophe des deutschen Bildungswesens zu werden droht. Vor allem gilt es, die Jugend zu verteidigen, wenn ihr Können schon zu Hause schlecht geredet wird. Kinder und Jugendliche brauchen Ermutigung, man kann sie bei ihrem Ehrgeiz packen, aber sie haben das Herumnörgeln an ihrer vermeintlichen Minderwertigkeit satt."

 
Online
Kraus J (ed.) (2008)
Bildungsgerechtigkeit
Deutscher Lehrerverband. Fachtagung. Dokumentation.

Schweidler W: Bildungsgerechtigkeit aus philosophisch-sozialethischer Sicht
Neumann D: Bildungsgerechtigkeit aus anthropologischer und begabungstheoretischer Sicht
Wißmann H: Bildungsgerechtigkeit aus verfassungsrechtlicher Sicht
Brenner P J: Bildungsgerechtigkeit aus Sicht der Bildungswissenschaft
Bender P: Kann man soziale Durchlässigkeit mit Pisa messen?
Fend H: Bildungsgerechtigkeit und außerschulische soziale Disparitäten - Ergebnisse der LIFE-Studie ("Lebensverläufe von der späten Kindheit ins frühe Erwachsenenalter")
Hey J: Bildungsgerechtigkeit aus Sicht der Hochschulen
Achtenhagen F: Bildungsgerechtigkeit aus Sicht der beruflichen Bildung
Kraus J: Essay zur Bildungsgerechtigkeit

 
Online
Ladenthin V (2003)
PISA — Recht und Grenzen einer globalen empirischen Studie. Eine bildungstheoretische Betrachtung.
Vierteljahrsschrift für wissenschaftliche Pädagogik 79 (3) 354–375. Auch in: Ladenthin, Volker: Zukunft und Bildung. Entwürfe und Kritiken. Frankfurt am Main usw., 2004.

"PISA mißt ausgewählte Teilkompetenzen für die Teilhabe an der Kommunikation in der Gesellschaft — also für Ausbildung im Hinblick auf ein spezifisches Anwendungsprofil; PISA gibt aber damit nur begrenzt Auskunft über die Bildungsprozesse, um deren gesellschaftliche Organisation willen Schulen eingerichtet wurden. Der Anspruch, von einer einzigen Wissenschaft her zu definieren, was die 'Basis' des Menschlichen ist, und sich damit von dem Gedanken einer menschlichen Gesamtpraxis, einer Person oder von sinnbestimmter subjektiver Totalität zu verabschieden, soll hier mit der Finanzkraft einer großen Wirtschaftsorganisation — der OECD — faktisch durchgesetzt werden. Die 'andere' Basis des Menschen, Sittlichkeit und Sinn, wird normativ nicht thematisiert."

 
Online
Ladenthin V (2007)
PISA und Bildung ?
Interview mit Rolf-Michael Simon. Neue Ruhr Zeitung, 18.11.2007.

"Warum ist es wichtig, auf welchem Rang Deutschland diesmal steht? Die Ergebnisse von PISA stehen in keinem kausalen Zusammenhang zu dem, was in den Schulen passiert... Um diese Missstände zu bemerken, braucht es keine teure Studie. Man kann einfach die nächste Schule an der Ecke besuchen."

 
Langfeldt G (2007)
PISA — Undressing the Truth or Dressing up a Will to Govern?
pp. 225–240 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Hier werden die Testgütekriterien Validität und Reliabilität von PISA genauer in den Blick genommen. Dabei wird zunächst die Qualität des Samples von PISA kritisiert (z.B. Zusammensetzung der Populationen, Auswahl der teilnehmenden Schulen etc.). Die Schwachstellen in der Validität der Studie liegen in der systematischen Verleugnung der Diversität der Kinder (etwa der kulturabhängigen Verzerrungen der Testergebnisse) und in der Herkunft der Testitems: Sie sind nicht repräsentativ für die unterschiedlichen Wissenskulturen, sondern der weitaus grösste Teil stammt aus englischsprachigen Ländern. So gesehen ist wenig überraschend, dass vier der sechs besten Teilnahmestaaten englischsprachige Länder sind. In beiden Bereichen entspricht PISA nicht den üblichen Standards vergleichender Forschung. Das entscheidende Problem liegt aber darin, dass diese Hintergründe für Laien nicht sichtbar sind, und daher — guten Glaubens — auf Grundlage von PISA etwa politische Entscheidungen getroffen werden.

 
Liessmann K P (2006)
Theorie der Unbildung. Die Irrtümer der Wissensgesellschaft.
Wien: Paul Zsolnay. Taschenbuchausgabe: München: Piper, 2008.

 
Lind D (2004)
Welches Raten ist unerwünscht? Eine Erwiderung.
J. Math.-did. 25 (1) 70–74.

Comment on Meyerhöfer 2004a. A reply by Meyerhöfer is available online

 
Lind D, Knoche N, Blum W, Neubrand M (2005)
Kompetenzstufen in PISA. — eine Erwiderung auf den Beitrag von W. Meyerhöfer ...
J. Math.-did. 25 (1) 80–87.

Comment on Meyerhöfer 2004b. See also reply by Bender 2005a.

 
Online
Lind G (2004a)
Jenseits von PISA — Für eine neue Evaluationskultur
Institut für Schulentwicklung Schwäbisch Gmünd, Hrsg.: Standards, Evaluation und neue Methoden. Reaktionen auf die PISA-Studie. Baltmannsweiler: Schneider Verlag Hohengehren

Die Idee, mit Hilfe von Schulleistungstests eine Qualitätsentwicklung in Gang zu setzen, ist auf den ersten Blick bestechend. Ob sie in der Relalität funktioniert, hängt aber offenbar davon ab, wie die Tests eingesetzt werden: Zur Evaluierung von Personen oder aber von Methoden. Nur im letzteren Fall ist Optimismus angebracht.

 
Online
Lind G (2004b)
Erfahrungen mit Standards in den USA — eine Übersicht.
Journal für Schulentwicklung 4/2004, 55–60.

In den USA dominiert der Trend, Standards und Schulentwicklung voneinander abzukoppeln. Aber es gibt auch verstärkt andere Bewegungen, die Beachtung verdienen. Sie sind Ausdruck des Versuchs, den in der US-amerikanischen Verfassung deklarierten Standard der Demokratie in einen prozeduralen zu übersetzen. Mithin spiegeln diese unterschiedlichen Bewegungen auch Vorstellungen von Demokratie wieder.

 
Online
Lohmann I (2006)
Die »gute Regierung« des Bildungswesens: Bertelsmann Stiftung.
Manuskript des Beitrags zum 20. DGfE-Kongreß, Frankfurt am Main.

Zum Kontext von PISA: "Netzwerke betreiben derzeit die Privatisierung der Schulen in Deutschland... Landesregierungen machen Mittelzuweisungen und den 'guten Ruf' einer Schule zunehmend von der Teilnahme an Bertelsmann-Projekten abhängig. Ob Schulleitungen wollen oder nicht: Entweder sie beteiligen sich von sich aus an einem Bertelsmann-Projekt oder die jeweiligen Landesregierungen ... zwingen sie. Die Bertelsmann Stiftung oder einer ihrer Affiliaten ist immer schon da und stellt den auf diese Weise 'interessierten' Schulen ein 'standardisiertes Steuerungsinstrument zur Verfügung', das 'Schulleitungen und Kollegien hilft, Schulentwicklungsprozesse mit Hilfe von Daten zu evaluieren und zu planen'. Es speist sich 'aus einem international tragfähigen Qualitätsverständnis von einer guten Schule', welches Bertelsmann durch entsprechend ausgewählte Experten besorgt hat, und wird 'durch wissenschaftlich geprüfte und praxiserprobte Erhebungsinstrumente (Fragebögen für Schüler, Lehrer und Eltern, Mitarbeiter und Ausbilder) konkretisiert', die ebenfalls aus Bertelsmann-Projekten hervorgegangen sind. Im Ergebnis mündet der Einsatz des Steuerungsinstruments in einen qualitätsvergleichenden, sprich wettbewerbsgerechten 'Bericht für die Schule', 'der als Grundlage für die Maßnahmenplanung dient' ... also dafür, die eigene Kommodifizierung und Vermarktförmigung voranzutreiben."

 
Online
Lohmann I (2006)
Every School as a Small Business. A privatization of the political is occuring worldwide today.
The New York City Independent Media Center; Translation of Freitag 31, 8/4/2006

In Germany, education politics is increasingly defined by the Bertelsmann foundation, a branch of the giant publishing house. The foundation impels politicians to privatise the public sector, creating a market for services offered by other branches of Bertelsmann. It advocates all kinds of tests and evaluations — and evaluates the success of those who followed its advice.

 
Maaz K, Kreuter F, Watermann R (2006)
Schüler als Informanten? Die Qualität von Schülerangaben zum sozialen Hintergrund.
S. 31–59 in Baumert J, Stanat P, Watermann R (Hrsg.): Herkunftsbedingte Disparitäten im Bildungswesen: Differenzielle Bildungsprozesse und Probleme der Verteilungsgerechtigkeit. Vertiefende Analysen im Rahmen von PISA 2000. Wiesbaden: VS Verlag für Sozialwissenschaften

In Deutschland wurden in PISA 2000 die Schülerangaben zum sozialen Hintergrund durch eine Befragung der Eltern überprüft. Die Übereinstimmung von Schüler- und Elternangaben zum Schulabschluss der Eltern lag bei den häufigsten Abschlüssen um die 70%, bei "exotischen" Abschlüssen deutlich darunter. Hatten Eltern die Fachhochschulreife, gaben das nur 27% der Kinder korrekt an. Beim beruflichen Bildungsabschluss und beim vierstellig kodierten Beruf lag die Übereinstimmung von Schüler- und Elternangaben bei rund 40%; beim daraus resultierenden, zweistellig kodierten ISEI bei ungefähr 45%.
Nichts in dieser Auswertung rechtfertigt die Schlussfolgerung, dass Schüler als "zuverlässige Informanten zur Erhebung von Bildungs- und Berufsmerkmalen der Eltern" angesehen werden können.

 
Online
Mahamed A, Gregory P A M, Austin Z (2006)
"Testwiseness" Among International Pharmacy Graduates and Canadian Senior Pharmacy Students.
Am. J. Pharm. Educ. 70 (6) 131.

"This study suggests that testwiseness skills are prevalent among North American students and less prevalent among international pharmacy graduates."

 
Manski C F (1995)
Identification problems in the social sciences.
Cambridge, Mass.: Harvard University Press.

"Empirical researchers usually enjoy learning of positive methodological findings. Particularly pleasing are results showing that conventional assumptions, when combined with available data, imply stronger conclusions than previously recognized... Negative findings are less welcome. Researchers are especially reluctant to learn that, given the available data, some conclusions of interest cannot be drawn unless strong assumptions are invoced."

 
Meehl P E (1978)
Theoretical Risks and Tabular Asterisks: Sir Karl, Sir Ronald, and the Slow Progress of Soft Psychology. J. Consult. Clin. Psychol. 46 (4) 806–834.

Against mindless use of statistical tests.

 
Online
Homepage
Meyerhöfer W (2004a)
Zum Problem des Ratens bei PISA.
J. Math.-did. 25 (1) 62–69.

"Zusammenfassend lässt sich konstatieren, dass es auch der PISA-Gruppe nicht gelungen ist, das Raten auszuschalten oder zu behindern. Die Aufgabenkonstruktionen schränken das Raten inhaltlich weder ein noch verhindern sie es. Die Itemfits erweisen sich lediglich als eine technokratische Scheinlösung für das Problem des Ratens: Itemfits geben ein Maß, aber es ist kein Maß für die Möglichkeit oder Wahrscheinlichkeit, dass bei einer Aufgabe geraten wird." See also response by D. Lind 2004.

 
Online (erweiterte Fassung)
Meyerhöfer W (2004b)
Zum Kompetenzstufenmodell von PISA.
J. Math.-did. 25 (3/4) 294–305.

"In diesem Beitrag wird behauptet und zur Diskussion gestellt, dass die Lösungshäufigkeiten der mathematischen PISA-Aufgaben allein und allgemein keine Aussagen über ihre Schwierigkeit zulassen. ... Die inhaltliche Tragfähigkeit einer statistischen Definition von Schwierigkeit wird in Frage gestellt. ... Die bei PISA verwendeten Kompetenzstufen [sind so konstruiert], dass Aufgaben diesen Stufen nicht zugeordnet werden können." Criticized by D. Lind et al. 2005, defended by Bender 2005a.

 
Buchhandel
Meyerhöfer W (2005)
Tests im Test: Das Beispiel PISA.
Leverkusen: Barbara Budrich.

Klappentext: "Was testen Tests? Mehr und anderes, als sie testen sollen, wie dieses Buch am Beispiel des Matheleistungstests von PISA belegt. Der Autor stellt mit der Objektiven Hermeneutik eine Methode vor, die uns tiefgründig erfassen lässt, was wir testen, wenn wir testen.
Wenn standardisierte Leistungstests wie PISA Schule stärker bestimmen, dann sind ihre gesellschaftlichen Implikationen auszubuchstabieren: Was tun wir mit Schule und Schülern, wenn wir standardisiert testen? Was erfahren wir über Schule und über Schüler, die wir testen? Wie gestaltet Gesellschaft Tests und umgekehrt? Und: Was testen Tests? Dieses Buch diskutiert diese Fragen. Mit der Objektiven Hermeneutik stellt es eine Methode vor, die es erlaubt, allgemeine Probleme von Leistungstests herunterzubrechen in konkrete Untersuchungen einzelner Tests. Der Mathematikleistungstest von PISA wird untersucht, und es zeigt sich Überraschendes: Dieser Test ist als Instrument für das Testen von Mathematikleistung ungeeignet. Ein operationalisiertes Testkonstrukt liegt nicht vor — es bleibt unklar, was gemessen werden soll. Es zeigen sich Messunschärfen, Probleme des Ratens und des Mitmessens von Testfähigkeit. Das theoretischen Modell, mit dem die Messresultate gedeutet werden, erweist sich als nicht nachvollziehbar. Die als theoretische Basis des Test angegebenen Theorien werden nicht verwendet."

 
Online
Meyerhöfer W (2006a, 22007)
PISA & Co als kulturindustrielle Phänomene.
pp. 59–97 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"Large scale tests are generated in an industrialized, task-forced manner. The theoretical concept of the culture industry allow us to understand phenomena, which evolve from such industrialized working methods as: alienating scientists from their products; the primary focus on completions of studies rather than gaining comprehensive achievements; technologically justifying semi-literacy; presenting products instead of debate; agressively handling criticism; limited learning capacity of the system. The phenomenon of 'country rankings', analysed separately, subsequently explains the dominance of academic 'voyeurism' over factual cognition."

 
Online
Meyerhöfer (2006b, 22007)
Testen, Lernen und Gesellschaft: Zwischen Autonomie und Heteronomie.
pp. 433–453 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"School exists in the field of tension between autonomy and heteronomy. On the one hand there is the requirement to develop the autonomy of the student as a part of society, and on the other hand, the student shall simultaneously be introduced to heteronomic conduct. This chapter investigates the problem that tests force educational activities in school towards heteronomy by damaging autonomy. The structural asymmetry between tester and candidate inevitably generates a limitation of the autonomy of both tester and candidate. Tests are discussed as a replacement for customary educational certificates, the premises and effects of testing shown, the difference between test exercises illustrated, and normal school exercises analysed."

 
Meyerhöfer W (2007)
Testfähigkeit — Was ist das?
pp. 57–92 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Das Problem der Testfähigkeit wird am Beispiel mathematischer Leistungstests erkundet. 'Testfähigkeit' beschreibt jene Kenntnisse, Fähigkeiten und Fertigkeiten, die in einem Test wie PISA miterfasst bzw. mitgemessen werden, die aber nicht unter den Begriff 'mathematische Leistungsfähigkeit' zu fassen sind. Anhand von Aufgaben aus TIMSS und PISA wird mit Hilfe von didaktischen und objektiv-hermeneutischen Aufgabeninterpretationen herausgearbeitet, welche empirischen Phänomene das Problem der Testfähigkeit ausmachen. Es zeigt sich, dass die für PISA erforderliche Testfähigkeit mit der in Lehrplan und Fachdidaktik gewünschten mathematischen Bildung wenig gemein hat."

 
Online
Meyerhöfer W (2009)
Aus dem Wunderland der Standards
Mitteilungen der Gesellschaft für Didaktik der Mathematik 87, 19–21.

"Heute ist Freitag. In Philadelphia heißt das: Testtag Philadelphia ist das Paradies für jeden Anhänger der Standardisierung von Bildung... Von Montag bis Donnerstag arbeitet man die Planbroschüre ab, Donnerstag findet man den Test in seiner Postbox, und am Freitag schreibt man den Test. Am Montag geht's von vorne los."

 
Online
Micklewright J, Schnepf S V (2006)
Response Bias in England In PISA 2000 and 2003
Southampton Statistical Sciences Research Institute (S3RI), University of Southampton, Research Report No 771

"Summary of recommendations: 1. Analysis of response in future waves of PISA should take place on data sets that are prepared and documented at an early stage. 2. Future analyses of response bias should investigate the impact of (i) school replacement and (ii) the use of weights that take into account different response levels within school strata. 3. Consideration should be given to whether it is practical to stratify samples of pupils within schools by a domestic measure of achievement (KS3 or KS4). 4. DfES should consider ways of raising response among pupils and not just among schools. It is the response biases at the pupil level that emerge most clearly in our study. 5. Criteria for exclusion of any country from the international reports for PISA need to be made explicit by OECD and clearly justified. Evidence for a decision on exclusion needs to be published. 6. Response weights for responding pupils in England in both 2000 and 2003 that are based on a statistical model of pupil response of the type we present in this report should be provided for users of the data. 7. The OECD should be engaged in discussion of whether adjustment for response bias using post-stratification response weights could be used in the future to avoid excluding a country from the international report."

 
Millman J, Bishop C H, Ebel R (1965)
An Analysis of Test-Wiseness.
Educ. Psychol. Meas. 25 (3) 707–726.

"'Test-wiseness' is defined as a subject's capacity to utilize the characteristics and formats of the test and/or the test taking situation to receive a high score. Test-wiseness is logically independent of the examinee's knowledge of the subject matter for which the items are supposedly measures."

 
Online
Monseur C, Wu M (2002)
Imputation for Student Nonresponse in Educational Achievement Surveys.
The International Conference on Improving Surveys, Kopenhagen, 25.–28.8.2002.

Conference Contribution ("should not be quoted or cited"). "Some empirical data showed that the absent student could not be regarded as 'missing at random'. ... Consequently, the non-response data are likely to cause bias in the population estimates. In the 2000 Programme for International Student Assessment, make-up sessions were conducted for the absent students the following day, but this did not eliminate all the bias."

 
Besprechung
Münch R (2009)
Globale Eliten - lokale Autoritäten. Zur Bildung und Wissenschaft unter dem Regime von Pisa, McKinsey&Co.
Suhrkamp-Verlag.

 
Neuwirth E, Ponocny I, Grossmann W (Hrsg) (2006)
PISA 2000 und PISA 2003: Vertiefende Analysen und Beiträge zur Methodik.
Graz: Leykam.

Nach dem vermeintlichen "Absturz" Österreichs in PISA 2003 beauftragte die Bildungsministerin drei Statistiker mit einer Untersuchung. Dies ist der offizielle Abschlussbericht, der ein umfangreiches Erratum zu den bisherigen PISA-Berichten darstellt. Die guten österreichischen Ergebnisse aus PISA 2000 waren massiv verzerrt, weil Berufsschüler aufgrund einer Übermittlungspanne in der Stichprobe unterrepräsentiert waren. Auch für PISA 2003 wurde eine massive Verzerrung gefunden, die durch die willkürliche Verankerung der Schwierigkeitsskalen in einem von dreizehn Testheften hervorgerufen wird.

 
Online
New York State Education Department Elementary Middle Secondary and Continuing Education, Office of State Assessments (o. J.)
Test Your Testwiseness.

Parody of a multiple-choice test...

 
Nichols S L, Berliner D (2007)
Collateral Damage. How High-Stakes Testing Corrupts America's Schools.
Cambridge Mass.: Harvard Education Press.

"Sadly, in high-stakes testing environments, we often see the test overinfluencing the teaching, resulting in a narrowing of the curriculum... a clear case of the tail wagging the dog."
Legislation like No-Child-Left-Behind is "based on the premise that children and teachers are not performing as well as they should", that they must be pushed to work harder. "Based on our hundreds of school visits, we have come to believe that the percentage of lazy teachers ... is considerably smaller than the percentage of lazy politicians who do not read the legislation they support."
Cheating tactics reported by Tennessee teachers: week students were herded to watch a movie, while academically stronger students took exams... there were various suspensions for infractions of students who were academically at the borderline just before the test... teachers were wandering the classroom, occasionally pointing out wrong answers to students or admonishing them, saying, 'You know better than that' ... counselors locked their office doors after the state testing was done to 'erase stray marks'...

 
Online
Errata
OECD (2005a)
PISA 2003 Technical Report. Paris: OECD.

 
Olsen R V, Turmo A, Lie S (2001)
Learning about students' knowledge and thinking in science through large-scale quantitative studies.
Eur. J. Psychol. Educ. 16 (3) 403–420.

"Within the research community in science education, there has been a tendency to show little interest in the data from studies such as TIMSS. Qualitative and smaller scale studies have been the popular trend. In this article, we have argued that data from both MC items and CR items, in international comparative studies, can give valuable insight into students' knowledge and thinking in science. However, interpretation of results from these kind of studies must be based on a thorough analysis of the actual items used. We have demonstrated that even small changes in the item wording and/or format can have large influences on the response pattern. This is a major challenge when drawing diagnostic interpretations from international comparative studies such as TIMSS and PISA."

 
Online
Olsen R V (2005)
An exploration of cluster structure in scientific literacy in PISA: Evidence for a Nordic dimension?
NorDiNa 1 (1) 81–94.

Groups of countries with similar language produce similar response patterns.

 
Olsen R V (2007)
Large-Scale International Comparative Achievement Studies in Education: Their Primary Purposes and Beyond
pp. 265–293 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Hier plädiert der Autor für eine Ausweitung und Ausdehnung der PISA-Studie, um das bestehende Konzept sinnvoll ausschöpfen und davon ausreichend profitieren zu können. Es wird vorgeschlagen, die umfangreichen und aufwändig erhobenen Daten der Studie ausführlichen Sekundäranalysen zu unterziehen, um in diesem Rahmen einerseits zusätzliche Erhebungen durchführen zu können und andererseits den gesamten Forschungszugang zu erweitern. Zu diesem Zweck werden sechs konkrete Beispiele vorgeschlagen."

 
Paris S G, Lawton T A, Turner J C, Roth J L (1991)
A Developmental Perspective on Standardized Achievement Testing.
Educ. Researcher 20 (5) 12–20.

"Our surveyes of students in Grades 2–11 revealed that by adolescence many students became suspicious and cynical about tests. A large number of students, especially low achievers, become anxious about tests, cheat, try half-heartedly, or use poor test-taking strategies. These reactions ... undermine the validity of test scores ..."

 
Online
Prais S J (2003)
Cautions on OECD's Recent Educational Survey (PISA).
Oxford Rev. Educ. 29 (2) 139–163.

"Immense resources had been invested in carrying out and analysing the results of this survey — but not, in my view, in fully thinking through its purpose and design."

 
Prais S J (2007)
England: Poor Survey Response and No Sampling of Teaching Groups
pp. 139–155 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Die PISA — Ergebnisse von 2003 hatten für England keine Aussagekraft, da die vorgegebenen Teilnahmequoten verfehlt wurden. Der Autor kritisiert an PISA und TIMSS, dass sie unkoordiniert durchgeführt werden, einander beachtlich überschneiden und überdies kostspielig und unwirtschaftlich sind. Da SchülerInnen mit geringem Leistungsniveau eher dazu tendieren, den Testungen fernzubleiben, werden Testergebnisse zudem tendenziell nach oben verzerrt. Neben der Kritik an der Repräsentativität des Samples wird auch bemängelt, dass in der Zusammenstellung des Samples Klassen oder Unterrichtsgruppen inadäquat gewichtet wurden."

 
Prenzel M, Walter O, Frey A (2007)
PISA misst Kompetenzen. Eine Replik auf
Rindermann 2006. Was messen internationale Schulleistungsstudien?
Psychol. Rundsch. 58 (2) 128–136.

See also reply Rindermann 2007a.

 
Puchhammer M (2007)
Language-Based Item Analysis — Problems in Intercultural Comparisons
pp. 127–137 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Puchhammer unterzieht die verfügbaren Mathematik-Testaufgaben einer quantitativen Analyse, die sprachliche Schwierigkeiten bei PISA zu Tage bringt. Unter anderem wird festgestellt, dass unterschiedliche Übersetzungen der Testitems verschiedene Längen der Texte zur Folge hat, was allein erhebliche Ergebnisunterschiede verursachen kann. Auch die Schwierigkeit der übersetzten Begriffe wird analysiert. Es stellt sich heraus, dass manche Wörter in anderen Sprachen schwieriger zu erfassen sind, d.h. der Schwierigkeitsgrad der Aufgaben ist nicht für jede Sprache und jede Wissenskultur gleich. Damit scheitert der Anspruch von PISA, faire internationale und damit sprachübergreifende Vergleiche zu ermöglichen."

 
Online
Putz M (2004)
PISA: Zu schön um wahr zu sein? Liegt das Traumergebnis an Rechenfehlern?
Hier online.

Südtirol nahm 2003 erstmals an PISA teil. Ab Dezember 2004 erschienen in den Südtiroler Medien "über drei Monate lang Jubelberichte, wonach Südtirol die Nachbarländer Österreich und Italien haushoch geschlagen habe und in Teilbereichen sogar vor dem Weltmeister Finnland liege. Dies alles sei der Politik der SVP zuzuschreiben. Ein Blick in die wenigen zugänglichen Datensammlungen ließ jedoch bald Zweifel an der Aussagekraft des Sensationsergebnisses aufkommen."

 
Online
Putz M (2008)
PISA: JEDEM DAS SEINE — WUNSCHERGEBNIS
Hier online.

 
Online
Radtke F-O (2003a)
Die Erziehungswissenschaft der OECD — Aussichten auf die neue Performanz-Kultur
In Nittel D, Seitter W (Hrsg.): Die Bildung des Erwachsenen. Festschrift für Joachim Kade, Bielefeld, S. 277-304. In gekürzter Form in der Zs. Erziehungswissenschaft 14 (27) 109-136 (2003b)

"Das Mittel, mit dem die OECD die nationalen Bildungspolitiken zu beeinflussen sucht, ist Kommunikation... Wiewohl von dem jetzt in den Vordergrund gerückten Indikator — Leseleistungen der Fünfzehnjährigen — kaum auf den Zustand eines Schulsystems geschlossen, noch weniger Urteile über den Wirtschaftsstandort oder Prognosen für das Wirtschaftswachstum abzuleiten sind, wurde mit den PISA-Befunden in Deutschland entschlossen Krisenstimmung gemacht... Die Aufregung war Mittel zum Zweck. Die beiden PISA-Studien sind nur der Anfang, gleichsam eine medienwirksam inszenierte volkspädagogische und reformpolitische Vorübung...
Die im Medienzeitalter immer zu stellende Frage, wer an der Aufregung welches Interesse hat, kann beantwortet werden... Irritierender Weise stehen die Lösungen der Consultants vor jeder Analyse der unbezweifelbaren Probleme der Organisation von Erziehung, Gesundheit, Gerechtigkeit und Wissenschaft immer schon fest: Markt, Wettbewerb, Zentralisierung oder De-Zentralisierung, Budgetierung, Quality Management etc., die mehr oder weniger mechanisch auf Krankenhäuser, Gerichte, Schulen wie Universitäten, Fakultäten wie Bibliotheken, Institute und Studiengänge übertragen werden sollen... Mit den Instrumenten performance agreements, performance measurement, programme evaluation soll so eine grundlegende institutionelle Erneuerung des gesamten Bildungssystems unter dem Gesichtspunkt erhöhter Rationalität und ökonomischer Effizienz bewirkt und perspektivisch seine (Teil-) Privatisierung der höheren Erziehung vorbereitet werden...
Dass die deutschen PISA-Autoren den politischen Zusammenhang ihrer Studien unerörtert lassen, leistet einer Dekontextualisierung von Wissenschaft Vorschub, die mit einem Verlust an Selbstbeobachtung und Kritik bezahlt wird... Weil es sich bei dem inter- wie dem intranationalen Länderranking der Schülerleistungen allenfalls um korrelative, auf Stichproben beruhende Aussagen über die Beziehungen einer unübersichtlichen Zahl von abhängigen und unabhängigen, in ihrem Verhältnis längst nicht abgeklärten Variablen handelt, hüteten die (deutschen) PISA-Autoren sich konsequent, aus ihren Befunden kausale Aussagen zu machen oder gar Empfehlungen für bildungspolitische Reformen abzuleiten. Mit ihrer Zurückhaltung trafen sie jedoch nicht die Erwartungen der Auftraggeber und der auf Kausalität fixierten Öffentlichkeit. Klagen Sozialwissenschaftler sonst regelmäßig darüber, dass ihre Ergebnisse in Politik und Praxis nicht zur Kenntnis genommen würden, so ist die wissensverwendungstheoretische Pointe von PISA offenbar, dass die Autoren sich umgekehrt vor der Rezeptionsbereitschaft der interessierten Öffentlichkeit, der Massenmedien, der Politik, des Schulestablishments und wohl auch der Schulen kaum retten konnten. Angesichts des von ihnen behaupteten 'Desasters' bei den Fünfzehnjährigen gab es geradezu eine Gier nach monokausaler Erklärung. Die von ihnen selbst strategisch erzeugte große Erwartung an die Studien hat dazu geführt, dass das enttäuschte Publikum versucht war, die von den Befunden nahegelegten Suggestionen wie ein Orakel als Gelegenheit zu nutzen, aus dem die jeweils bevorzugten, je schon erhobenen Reformforderungen herausgelesen wurden.
Das OECD-Projekt der Performanz-Kultur basiert auf wackligen Prämissen: Die Suche nach Ursachen- wie nach Wirkungskausalität in der Erziehung, die die Voraussetzung für alle Versuche darstellt, Technologien zu entwickeln, die prognostizierbare Ergebnisse garantieren könnten, ist aus systematischen Gründen nicht erfolgreich gewesen und scheint auch in Zukunft wenig aussichtsreich. Weder ist das zu erziehende Individum eine Trivialmaschine, die konstante input-output-Relationen hervorbrächte, noch ist mit dem homo oeconomicus zu rechnen, der nur rationale Entscheidungen entlang nur einer Rationalität trifft, noch ist der output von autonom operierenden Funktionssystemen und ihrer Organisationen zuverlässig von außen steuerbar. Das Kontingenzproblem, das Prozesse beschreibt, die weder natürlich, noch probabilistisch noch rational sind, sondern komplexen soziale Mustern folgen, die nicht unabhängig von den Beschreibungen und Reflexionen der Teilnehmer sind, steht ihrer Steuerbarkeit entgegen. Trivialität und einlinige Rationalität werden aber im Human-Kapital-Konzept ebenso vorausgesetzt, wie sie in alle bildungstechnologische Programmen Eingang gefunden haben.
Die Analyse pädagogischer Kommunikation in und außerhalb von Erziehungsorganisationen kann mit empirischen Befunden aufwarten, die alle Machbarkeitsphantasien zerstreuen und doch darüber aufklären, was geschieht, wenn erzogen werden soll. Bildungsverwaltung und Bildungsforschung bestärken sich gegenseitig — aus je unterschiedlichen Motiven — in einer Harmonie der Täuschungen über ihre tatsächlichen Möglichkeiten. Es sind Selbsttäuschungen, die von den Medien noch bekräftigt und zu konstanten Elementen des öffentlichen Diskurses gemacht werden. In dieser Situation wäre zur Vermeidung von Fehlinvestitionen eher theoretische Distanzierung durch Stärkung der Autonomie der Erziehungswissenschaft geboten und nicht Einschränkung ihrer disziplinären Kommunikation."

 
Radtke F-O (2005)
Die Schwungkraft internationaler Vergleiche.
pp. 355–385 in:
Bank 2005 (ed.): Vom Wert der Bildung. Bern: Haupt.

Überarbeitete Buchfassung von Radtke 2003a.

 
Online
Raudenbush,S (2004)
Schooling, Statistics, and Poverty: Can We Measure School Improvement?
Ninth annual William H. Angoff Memorial Lecture, presented at Educational Testing Service, Princeton, New Jersey, on April 1, 2004

"I compare two competing approaches to measuring school quality and school improvement, the first based on school-mean proficiency, the second based on value added. Analyses of four data sets spanning elementary and high school years show thatKADE/SEITTER 2002) these two approaches produce pictures of school quality that are, at best, modestly convergent. Measures based on mean proficiency are shown to be scientifically indefensible for high-stakes decisions. In particular, they are biased against high-poverty schools during the elementary and high school years. The value-added approach, while illuminating, suffers inferential problems of its own. I conclude that measures of mean proficiency and value added, while providing potentially useful information to parents and educators, do not reveal direct evidence of the quality of school practice."

 
Raven, J (1991)
The Tragic Illusion: Educational Testing
Unionville: Trillium.

"Factor-analytic studies conducted by psychologists since the turn of the century have, on a whole, reinforced the tendency of teachers to think in terms of 'ability' rather than 'abilities'... tests distinguish between 'able' and 'less able' students... measure — and focus attention on — only a tiny fraction of the talents which schools could be identifying, fostering, and recording... 'back to basics' reinforces a 'single-factor' model of ability... not only do test scores not predict life success to any socially significant extent, the educational system in itself, in general, adds little to peoples's competence... if we are to find ways of assessing important human traits we will need to abandon our desire to develop value-free, internally consistent measures. Instead, we will need to develop value-based, maximally-internally-heterogeneous indices which do justice to the psychological complexity of these qualities."

 
Online
Raven, J (2008)
Fundamental Problems in Psychometrics.
Testing International 19, July, 16-17.

"Where would biologists have got to if they had sought to summarise the variance between animals in terms of 1, 2, 5, or 16 'variables', the variance in their environments in 10, and the interactions between the two sets of variables as a series of multiple regression weights?"

 
Online (restricted)
Rindermann H (2006)
Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz?
Psychol. Rundsch. 57 (2) 69-86.

"Reading literacy items contain tables and graphs, science items extensive texts, math items common cognitive tasks with long texts. ... Correlations between scales on level of individual data are higher than known correlations between scales of intelligence tests. ... All results indicate a strong g-factor of cognitive abilities. On level of macrosocial data a separation from intelligence is empirically not possible."

 
Rindermann H (2007a)
Intelligenz, kognitive Fähigkeiten, Humankapital und Rationalität auf verschiedenen Ebenen.
Psychol. Rundsch. 58 (2) 137–145.

Replik auf Kommentare von Baumert et al. 2007 und Prenzel et al. 2007.

 
Online (restricted)
Rindermann H (2007b)
The g-factor of international cognitive ability comparisons.
Eur. J. Personality 21, 667–706 [special issue, edited by Asendorpf J B, article followed by open peer commentary].

"International cognitive ability and achievement comparisons stem from different research traditions. But analyses at the interindividual data level show that they share a common positive manifold. Correlations of national ability means are even higher to very high ... Causes of the high correlations are seen in the similarities of tests within studies, in the similarities of the cognitive demands for tasks from different tests, and in the common developmental factors at the individual and national levels including known environmental and unknown genetic influences."

 
Rocher T (2003)
La méthodologie des évaluations internationales de compétences.
Psychologie et Psychométrie 24 (2–3) [Numéro spécial : Mesure et Éducation], 117–146.

"... la méthodologie est entièrement guidée par la volonté de produire des palmarès fiables. Or, malgré les efforts entrepris, il s'avère que des biais subsistent et fragilisent les classements obtenus... Ne vaudrait-il pas mieux de montrer les spécificités de chaque pays plutôt que de chercher à les gommer?"

 
Romainville M (2002)
Du bon usage de PISA.
La Revue Nouvelle 115 (3–4) 86–99.

Review of the first PISA reports: "beaucoup de bruit pour rien".

 
Rost J (1999)
Was ist aus dem Rasch-Modell geworden?
Psychol. Rundsch. 50 (3) 140–156.

Rost, the expert for psychometry in the German consortium for PISA 2000 and 2003, expresses in this paper serious reservations about the usability of the elementary Rasch model.

 
Rost J (22004)
Lehrbuch Testtheorie — Testkonstruktion.
Bern: Hans Huber.

Betont unter anderem, dass das Rasch-Modell nicht anwendbar ist, wenn ein Test unter Zeitdruck stattfindet.

 
Sacks P (1999 / paperback 2000)
Standardized Minds. The high price of America's testing culture and what we can do to change it.
Cambridge Mass.: Perseus Publishing.

In the USA, a Reform Crusade and an Accountability Machine are based on "myths" that go back to the "Nation at Risk" report: "American schools are in peril ... The U.S. economy is in peril because of an inferior education system ... Greater school 'accountability' will mean higher achievement." — Most middle-class parents "simply do not consider or tolerate the idea that learning cannot be completely captured by test scores ... The pervasiveness of teaching to tests in American schools ... has been thoroughly documented... Researchers have found consistently that one of the most damaging effects of large-scale, big-stakes standardized testing in schools has been to: (1) oversimplify what's taught in school; and (2) to severely constrict what is taught to only those items most likely to appear on an upcoming standardized test." After introduction of standardized tests in British Columbia, observers noted "a narrowing of instructional patterns ... A sense of fun and enjoyment seemed lacking here. This was work and made to seem so." — Children in California have taken at least ten standardized tests by the time they graduate from high school. "Indeed, if one wants to understand the driving forces behind the unmitigated expansion of standardized testing in the United States, then it behooves one to obey the simple adage: Follow the money."

 
Online (restricted)
Salzman H, Lowell L (2008)
Making the grade
Nature 453, 28–30

"International testing that is used to predict grim future of US science and technology is being vastly misinterpreted."

 
Online
Schmidt C M, Fertig M (2003)
Genaues Hinsehen lohnt. Die Determinanten des Abschneidens deutscher Schüler in der PISA 2000-Studie.
Forschung and Lehre (6) 313-315.

"Die vorliegenden Berichte der OECD zu den Ergebnissen der PISA-Studie offenbaren einige Schwächen, da in den reportierten Analysen nur eine sehr unvollständige Kontrolle um individuelle Heterogenität in den Testergebnissen erfolgt. Es werden hauptsächlich Länderdurchschnittswerte angeführt, aus denen sich der Einfluß unterschiedlicher individueller sozio-ökonomischer, schulspezifischer, und systembezogener Charakteristika nicht getrennt ermitteln läßt. Als Konsequenz hieraus kursieren in der öffentlichen Debatte eine ganze Reihe vermeintlicher Erklärungen für die Resultate der Studie, insbesondere für das schlechte Abschneiden der deutschen Teilnehmer. Sehr häufig werden beispielsweise der relativ hohe Anteil an Schülern mit nicht-deutscher Staatsangehörigkeit, ein mangelhafter Zugang zu PCs in den Schulen, eine Überregulierung der Schulen, schlechte Ausstattung mit Lehrmaterialien und ähnliche Faktoren als Hauptursache angeführt. Diese populären Ideen können einem genauen Blick auf die Daten nicht standhalten... muß hier vor allzu starken wirtschafts- und bildungspolitischen Schlußfolgerungen gewarnt werden. Zunächst muß festgehalten werden, daß selbst nach der Berücksichtigung all dieser individuellen und schulischen Einflußgrößen ein nicht unbedeutender unerklärter Rest verbleibt. Dieser dürfte insbesondere auch auf in den Daten unbeobachtete Unterschiede in den Schulsystemen der einzelnen (Bundes-) Länder zurückzuführen sein. Starke Handlungsempfehlungen sind darüber hinaus aufgrund der Daten einer Momentaufnahme nicht vertretbar."

 
Online
Shriberg D, Shriberg A B (2006)
High-Stakes Testing and Dropout Rates.
Dissent Magazine.

Dropout rates and high-stakes testing receive their share of media attention, but the likely connection between the two is rarely discussed outside of education circles.

 
Sill H–D (2006)
PISA und die Bildungsstandards
pp. 391–431 in:
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"An analysis of scientific and educational-political backgrounds and desiderata of current educational standards in Germany. — The educational standards that are based on the PISA concept influence the theory and practice of mathematical education in Germany in a similarly serious way to the New Math Movement did in the 1960s and 1970s. A detailed analysis of the development of new education standards illustrates the interplay between science and politics. Causes for the current 'warping' in the development of curricula in Germany are to be found in factors such as: serious lack of didactic research, the ignorance towards achievements in East Germany until 1989, disregard for the achieved status of development of general curricula in certain federal states, and the neglect of international experience. The status and the methods of curricula research in the FRG and the GDR are evaluated and standards of NCTM are viewed as proof for these theses, in relation to the educational standards. The current educational standards for secondary school qualification in mathematics as well as a 'new exercise culture' are analysed critically and perspectives for a thorough further development are shown."

 
Sireci S G (1997)
Problems and Issues in Linking Assessments Across Languages.
Educational Measurement: Issues and Practice 16 (1) 12–19.

"Given the current trend toward cross-national educational comparisons, it is clear that ignorance of linguistic factors affecting such comparative studies is unacceptable. It is also clear that accounting for these factors poses considerable challenges ..."

 
Sjoeberg S (2007)
PISA and "Real Life Challenges": Mission impossible?
pp. 203–224 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Der Beitrag zeigt, dass der Anspruch von PISA, 'Real—Life—Skills und Kompetenzen in authentischen Kontexten' zu testen, fragwürdig ist. Ein Test kann nie besser sein als die Items, aus denen er sich zusammensetzt. Demzufolge wäre es nötig, die Items der Testung und deren Anwendung genau darauf hin zu überprüfen, was aber weder durch PISA selbst belegt ist, noch anderen durch die Geheimhaltung der Testaufgaben möglich ist. Ob PISA überhaupt lebensweltlich relevante Kenntnisse misst, ist also weder belegt, noch nachprüfbar. Die Aufgaben, die bekannt geworden sind, lassen daran zweifeln. Eine weitere Kritik betrifft die PISA zugrunde liegende Annahme, dass die teilnehmenden Schülerinnen und Schüler ihr Bestes im Test zeigen. Studien zufolge sind Motivation und Testwilligkeit in verschiedenen Ländern äusserst ungleich. Ein erheblicher Teil der Leistungsunterschiede könnte also daran liegen, dass PISA in manchen Ländern für viele Befragte keinen 'authentischen' Wert hat."

 
Online
Stamm M (2005)
Erziehungswissenschaft und Bildungspolitik — Perspektiven eines schwierigen Verhältnisses.
Die Deutsche Schule, 4, 421-431.

"Beispielsweise hat uns die zweite Runde von PISA soeben eine Musterlektion zur grossen Verflochtenheit von Erkenntnis und Interesse vorgeführt ... dass die Aussagefähigkeit der erhobenen Daten offenbar dann ihre Grenzen hat, 'wenn es um kausale Schlussfolgerungen geht. Aufgrund der querschnittlichen Anlage von PISA sind belastbare kausale Aussagen in der Regel nicht möglich.' (Baumert, Stanat, Demmrich, 2001, S. 33). Diese Einschränkung findet in Bildungspolitik und interessierter Öffentlichkeit jedoch offenbar wenig Beachtung. Folgen sind argumentative Beliebigkeit und die Legitimation nahezu jeden Reformvorschlags mit einem Rückgriff auf die Ergebnisse der PISA-Studie ... PISA wird damit möglicherweise auch zu einem Exempel dafür, dass die Bildungsforschung die fehlende Interpretationskompetenz der Abnehmer zu wenig berücksichtigt und demzufolge selektive Verwendungspraktiken geradezu provoziert ... Erziehungswissenschaft wird sich deshalb bescheiden müssen. Wenn sie sich jedoch zukünftig wieder verstärkt auf ihre skeptische Funktion beruft, dann wird das Verhältnis zur Bildungspolitik zwar nicht enger und einfacher, aber bedeutend ehrlicher."

 
Online
Switalla B (2002)
PISA lesen. Implikationen der Lesekompetenz-Studie.
Universitas Online.

"Alles in allem ist mein Eindruck der, dass die Lesekompetenz-Untersuchung der PISA-Studie eine bestimmte Praxis, einen bestimmten Habitus des verständigen Lesens von Texten erforscht; dass die praktische Empirie mit begrifflichen und methodischen Mitteln arbeitet, die zu nicht unbedingt überzeugenden Interpretationen und Analysen führen; dass der verstehenspsychologische Bezugsrahmen erhebliche literalitäts-, text- und sprachtheoretische Leerstellen hat; dass die begrifflichen und analytischen Probleme der Interpretation der Quantifizierung der empirischen Befunde engere Grenzen setzen, als allgemein angenommen wird. Nicht nur die Konsequenzen, sondern auch die Implikationen der PISA-Studie sollten also wissenschafts- und bildungsöffentlich intensiver erörtert werden. Das hieße im einzelnen:

  • Die literaliätstheoretisch und — historisch gesehen eingeschränkte Auffassung von Lesekompetenz sollte aufgegeben werden: Literalität ist (nicht erst) heute ein intertextuelles und intermediales Phänomen.
  • Die damit zusammenhängende, weder historisch noch systematisch gesehen angemessene Auffassung vom Prozess des Lesens sollte revidiert werden: Lesen ist eine kulturelle Praxis.
  • Der literalitätstheoretisch gesehen tragfähige Bezugsrahmen für die Lesekompetenzforschung kann nur einer sein, der die Praktiken, Habitus, Traditionen des Lesens als hochkomplexe Interaktion der Person innerhalb ihrer symbolischen Umwelten interpretiert: der Leser ist ein sich in unterschiedlichen medialen Umgebungen bewegender Akteur.
  • Die praktische Empirie der Lesekompetenz-Studie kann nur dann gelingen, wenn die Experten selbst ihre eigenen Praktiken und Konzepte der Konstruktion, der Deskription, der Exemplifizierung und der Evaluation literalitäts-, text- und sprachtheoretisch gesehen angemessener verstehen: der Analytiker muss sich verstehenstheoretisch kompetenter orientieren."

 
Tillmann K-J, Dedering K, Kneuper D, Kuhlmann C, Nessel I (2008)
PISA als bildungspolitisches Ereignis. Oder: Wie weit trägt das Konzept der "evaluationsbasierten Steuerung"?
pp. 117-140 in: Brüsemeister T, Eubel K-D (eds.): Evaluation, Wissen und Nichtwissen. Wiesbaden: VS Verlag für Sozialwissenschaften.

Large-Scale-Assessments "werden vor allem evaluationstheoretisch begründet. Angeblich wird durch diese Studien 'Steuerungswissen' produziert, das die Handlungs- und Entscheidungskompetenz der Akteure in den Schulministerien erhöhen soll... Nun zeigt unsere Analyse, dass die Wirklichkeit zumindest bei PISA wesentlich anders, wesentlich komplexer aussieht... Die Minister... müssen sich vor allem mit dem öffentlichen Bild der Ergebnisse auseinandersetzen... Reaktionen auf PISA ... sind in aller Regel darauf ausgerichtet, die politische Akzeptanz der Regierenden zu erhöhen." Beispiel: wollte man versuchen, den Nutzen zentraler Prüfungen für die Behebung "der durch PISA aufgedeckten Probleme ... erziehungswissenschaftlich zu begründen, käme man in erhebliche Probleme."

 
Uljens M (2007)
The Hidden Curriculum of PISA - The Promotion of Neo-liberal Policy by Educational Assessment
pp. 295–303 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"Das Phänomen PISA wird als ein Beispiel für einen grundsätzlichen, nahezu alle europäischen Staaten betreffenden Trend zur Transformation der Bildungspolitik angesehen. Für Finnland im Speziellen bedeutete dies, dass PISA in etwa dem entsprach, was die Wendung zur sogenannten Bildungspolitik 'der dritten Republik' ohnedies anstrebte. Es wird im weiteren auf die auch in Finnland verbreitete Kritik vor allem an den Intentionen, theoretischen Fundierungen und methodologischen Aspekten des PISA-Projektes verwiesen, aber auch gezeigt, wie diese bei den finnischen Erklärungsversuchen für den unerwarteten Erfolg Finnlands bei PISA unberücksichtigt blieb. "

 
Wise S L, DeMars C E (2005)
Low Examinee Effort in Low-Stakes Assessment: Problems and Potential Solutions.
Educ. Assessment 10 (1) 1–18.

... findings indicate that motivated students perform, on average, more than one-half standard deviation higher than unmotivated students."

 
Online
Wuttke J (2007a)
Uncertainties and Bias in PISA.
pp. 241–263 in:
Hopmann, Brinek, Retzl (eds.): PISA zufolge PISA — PISA According to PISA. Wien: Lit-Verlag.

"This is a summary of a detailed report that has appeared in German (Wuttke 2007b). It will be shown that statistical significance criteria of OECD/PISA are misleading because several sources of systematic bias and uncertainty are quantitatively more important than the standard errors communicated in the official reports."

 
Online
Wuttke J (2007b)
Die Insignifikanz signifikanter Unterschiede: Der Genauigkeitsanspruch von PISA ist illusorisch.
pp. 99–246 in: 2nd edition of
Jahnke, Meyerhöfer (eds.): PISA & Co — Kritik eines Programms. Hildesheim: Franzbecker.

"The numeric accuracy of PISA is questioned on different levels. In part 2 the representativity of the sample is examined (school attendance, enrollment data, stratification, exclusions, special-needs students, violation of minimum participation criteria, correlation of participation propensity and latent ability, gender, unclear rules and uncomplete data). Part 3 gives a self-contained explanation of the item-response scaling (conversion of raw scores into item difficulties and student abilities); it is deduced that 4 points on the official 500–100 scale correspond to less than 1% in right-response rate. Part 4 shows why the one-parameter Rasch model is not adequate for the cognitive data (different discrimination parameters, violations of the two-parameter model, guessing, model-dependence of item difficulty, multiple responses to multiple-choice questions [up to 10% in Austria], different preferences for multiple-choice distractors, global correlations as a measure for cultural proximity, fatigue and lack of time). Part 5 looks at the social background data. The newly introduced index of econonomic, social and cultural status is based on an unsound and outdated job prestige scale and on a fundamentally flawed factor analysis. The gradient of cognitive performance with respect to this index depends critically on item selection; similarly, gender differences ought to be analysed on item level. In part 6, among other conclusions, it is argued that systematic errors far outweigh stochastic uncertainties, that the huge sample size is not justified by the attainable precision, and that cyclic repetition of PISA will not provide any useful trend indicator."

 
Online
Wuttke J (2007c)
Pisa — ein teurer Zufallsgenerator.
Berliner Zeitung, 8. 12. 2007.

"Kaum sind in dieser Woche die Ergebnisse von Pisa 2006 veröffentlicht worden, streiten sich die Verantwortlichen um die Deutungshoheit. Der OECD-Koordinator Andreas Schleicher sagt: Die Verbesserung Deutschlands um 14 Punkte sei keine echte Verbesserung. Der deutsche Pisa-Chef Manfred Prenzel widerspricht: Man erkenne einen deutlichen Fortschritt. Darf man das diesjährige Naturwissenschafts-Ranking mit dem von 2000 und 2003 vergleichen?"

 
Online (restricted)
Wuttke J (2008)
Erhöhter Dokumentationsbedarf bei Imputation fehlender Daten.
Psycholog. Rundschau 59 (3) 178-179 (2008) [online leider nur über abonnierte Bibliotheken; auf Anfrage schicke ich gerne ein Reprint zu].

"Effizienz und relative Validität sind wichtige, aber nicht die einzigen Qualitätsmerkmale wissenschaftlicher Arbeit; wo sie in Konflikt mit Mitteilbarkeit und Nachvollziehbarkeit geraten, kann eine Abwägung je nach Studienzweck und Veröffentlichungsform durchaus zu dem Entschluss führen, zugunsten der Transparenz auf eine letzte Verfeinerung der Datenauswertung zu verzichten... In der PISA-Auswertung werden die nicht-administrierten Aufgaben jedoch in einer von der Imputationstheorie nicht gedeckten Weise in einem bestimmten Testheft verankert, was eine systematische Verzerrung bewirkt (Neuwirth 2006, S.~55). Das Ausmaß dieser Verzerrung beträgt ein Mehrfaches der Standardfehler, die ihrerseits durch die Einbeziehung imputierter Daten um nur 10% reduziert werden (Wuttke 2007b, S.~147): hier schadet Imputation mehr, als sie nützt."

 
Online
Wuttke J (2009)
Pisa: Nachträge zu einer nicht geführten Debatte.
Mitteilungen der Gesellschaft für Didaktik der Mathematik 87, 22–34.

"In den bald acht Jahren, die seit dem initialen PISA-Schock vergangen sind, ist unüberschaubar viel zur Exegese der Testergebnisse gesagt worden, weitaus weniger aber über deren Zustandekommen... Daher erscheint es nicht unangemessen, eine von PISA&Co besonders betroffene Fachgemeinschaft noch einmal eindringlich auf problematische Seiten testgetriebener Schulgestaltung hinzuweisen."

 
Yamamoto K, Mazzeo J (1992)
Item Response Theory Scale Linking in NAEP.
J. Educ. Stat. 17 (2) 155–173.

"Standard errors for NAEP results [same holds for PISA results] reflect only the estimation due to examinee sampling and imputation. In future assessments, consideration should be given to including other sources of uncertainty in the reported standard errors of assessment results."

 
Online
Zabulionis A (2001)
Similarity of Mathematics and Science Achievement of Various Nations.
Educ. Policy Analysis Arch. 9 (33).

Response patterns in TIMSS as a measure of cultural proximity.

 
Zwick R (1992)
Statistical and Psychometric Issues in the Measurement of Educational Achievement Trends: Examples From the National Assessment of Educational Progress.
J. Educ. Stat. 17 (2) 203–218.

A change in item order suffices to produce a "steep drop" in ability estimates.