Aktuell

Stellungnahme der Deutschen Gesellschaft für Soziologie zum Umgang mit studentischen Lehrveranstaltungsevaluationen [1]

August 2020

Die Bewertung der Qualität universitärer Lehre durch Studierende mittels stan­dardisierter Fragebögen – kurz studentische Lehrver­anstal­tungs­eva­lua­tion (LVE) – hat im deutschsprachigen Raum flächendeckende Ver­brei­tung ge­funden und ist auch in Hochschulgesetzen fest verankert. Die Ziel­set­zun­gen, die sich hinter dem Einsatz des Instruments verbergen kön­nen, sind viel­fältig, wobei es erhebliche Variation in den Evaluationsprak­tiken und -kul­turen zwi­schen Hochschulen und Fächern gibt: Studentische LVE bieten Stu­die­ren­den eine Möglichkeit, den Lehrenden die eigenen Er­fah­rungen und Sicht­wei­sen auf die Lehre in anonymisierter Form zurück zu spiegeln. LVE können den Lehrenden Informationen liefern, um die Er­war­tungen der Hörerschaft bes­ser zu verstehen und die Qualität ihrer Lehre zu steigern. Und LVE können zur Setzung von Anreizen für bessere Lehre (z.B. Lehrpreise), als Ent­schei­dungs­grundlage bei Berufungs- und Entfris­tungs­­verfahren (z.B. kritische Schwel­len als Bedingung für Tenure) sowie zur Kontrolle der Lehrleistung (z.B. hochschulinterne Publikation von LVE-basierten Lehrenden-Ran­kings) eingesetzt werden.

Je nach dem angestrebten Verwendungszweck unterscheiden sich die An­­­forderungen – z.B. im Hinblick auf die Validität, Präzision und Ver­gleich­bar­keit der Messungen – an das Instrument. Daher sind studentische LVE für diese unterschiedlichen Zielsetzungen nicht gleichermaßen gut geeignet. Dies kann bei unangemessener Nutzung von LVE im schlimmsten Falle da­zu führen, dass Fehlanreize für Lehrende gesetzt und an Hochschulen fehl­ge­leitete Ent­­schei­dun­gen auf Basis dieser vermeintlich objektiven Grund­­lage getroffen werden. Aus diesem Grund sieht sich die DGS zu einer Stel­lung­nahme zu den Möglichkeiten und Grenzen einer Nut­­zung des In­stru­ments veranlasst (siehe auch ASA 2019).

Hierfür erscheint zunächst eine Einordnung in die Forschung not­wen­dig.[2] Grundsätzlich lassen sich zwei große Forschungszweige (mit vielen weiteren Verästelungen) unterscheiden: Auf der einen Seite gibt es eine Viel­zahl an Studien, welche die Zusammenhänge von studentischen LVE mit an­­deren Maßen der Lehrqualität untersuchen (z.B. Marsh 2007; Rindermann 2001; Spooren, Brockx, Mortelmans 2013). Hierbei zeigt sich, dass das In­stru­ment mittlere bis starke Korrelationen mit naheliegenden Außen­kri­te­rien, wie der Ein­schät­zungen durch Peers, aufweist. Auch lassen sich durch hoch­schul­di­dak­tische Weiterbildungsmaßnahmen Verbesserungen der LVE im Zeitverlauf er­zielen (Dresel, Rindermann 2011; Penny, Coe 2004). Dies deutet an, dass Aspekte der Lehrqualität zu einem nicht unerheblichen Teil in die stu­­dentischen Bewertungen eingehen, dem Instrument also eine gewisse Va­li­­dität nicht abzusprechen ist.

Auf der anderen Seite lässt die Stärke der empirisch dokumentierten Zu­sam­menhänge aber durchaus Raum für unerwünschte sachfremde Einflüsse (z.B. Kromrey 1994a; Stark, Freishtat 2014; Wolbring 2013). So deuten zahl­reiche Forschungsarbeiten erstens an, dass es unter bestimmten Be­din­gun­gen Ein­flussfaktoren auf die studentische Bewertung geben könnte, die unab­hän­gig von der Qualität der Lehre wirken. So wurden die studentischen Be­wer­­tungen der Lehre in verschiedenen Studien mit dem Geschlecht (z.B. Boring 2017; Rivera, Tilcsik 2019) und der physischen Attraktivität der Do­zie­renden (z.B. Hamermesh, Parker 2005; Klein, Rosar 2006) in Ver­bindung gebracht. Auch weisen Studien für andere Länder auf mögliche Zu­sam­men­hän­ge der studentischen Bewertungen mit der Hautfarbe und ethni­schen Her­kunft der Lehrenden hin (z.B. Chávez, Mitchell 2020; Chisadza, Nicholls, Yitbarek 2019). Zweitens gehen Rahmen­be­din­gun­gen der Lehre, wie das studentische Vorinteresse, der Pflicht- bzw. Wahl­cha­rakter einer Ver­an­stal­tung und auch die räumliche Situation (z.B. Esser 1997; Rindermann 2016), die nicht oder nicht gänzlich in der Hand der Leh­ren­den liegen, in die Be­wertung mit ein. Schließlich kann es aufgrund von Re­ziprozitäten bei der ge­genseitigen Bewertung der Lehr- und Studien­leistung durch Lehrende und Stu­dierende drittens zu Fehlanreizen bei der Ge­­stal­­tung von Lehre und Prü­fun­gen kommen. So eröffnen sich Mög­lich­kei­ten und Anreize zur Manipulation von LVE durch eine Reduktion des Work­­loads oder eine Inflation der Noten (z.B. Bar, Kadiyali, Zussmann 2009; Johnson 2003; Weinberg, Hashimoto, Fleisher 2009).

Auch wenn diese Effekte je nach sozialem Kontext variieren dürften, zei­­­gen diese Befunde, dass solche Faktoren LVE potenziell verzerren und im Einzelfall durchaus starke Effekte haben können. Daneben können Me­tho­deneffekte auftreten, die mit der Fragebogengestaltung, dem Be­fra­gungs­mo­­dus und dem Rücklauf zusammenhängen (z.B. Dresel, Tinsner 2008; Kromrey 1994b; Treischl, Wolbring 2017). Dies erschwert ebenfalls die Ver­gleichbarkeit von LVE über verschiedene Veranstaltungsformate, The­men und lokale Hochschulkontexte hinweg. All dies entkräftet freilich nicht die zuvor berichteten Befunde zur Validität studentischer LVE, zeigt aber, dass LVE die Zufriedenheit der Studierenden mit der Lehre erfassen, was durch­aus wünschenswert ist. LVE-Ergebnisse sind jedoch trotz ihrer häu­figen Nut­zung als Grundlage für Karriereentscheidungen nicht mit einer prä­­zisen Messung der Lehrleistung von Einzelpersonen gleichzusetzen. Daher sollte das Instrument mit Bedacht und Augenmaß unter Aner­ken­nung dieser Fall­stricke verwendet werden. Die DGS leitet aus dem skiz­zier­ten For­schungs­stand folgende Empfehlungen ab:

  • LVE sollten zum Zweck einer formativen Evaluation, d.h. einer den Lehr­­prozess begleitenden Bewertung, eingesetzt werden. Hierfür ist eine Eva­luationskultur zu entwickeln, bei der die Feedback- und Ent­wick­lungs­funktion im Vordergrund steht. Dabei sollten LVE nicht als Aus­druck der Lehrleistung einzelner Lehrpersonen, sondern als das Ergebnis des Zusammenspiels aus Lehrenden, Studierenden und Rahmen­be­din­gungen begriffen werden. Vor diesem Hintergrund liegt eine stärkere Nut­­zung von LVE für die systematische Weiterentwicklung von Mo­du­len und Studiengängen im Rahmen des Studiengangs- und Qualitäts­ma­na­ge­ments nahe.
  • Für eine Begleitung des Lehrprozesses durch LVE im Sinne einer for­ma­­­tiven Evaluation sollten diese früher als bisher üblich im Semester durch­­­geführt werden, wobei die Fragebögen entsprechend dieser verän­derten Zielsetzung anzupassen sind. So können die Eva­lua­tions­er­geb­nisse nicht nur im laufenden Semester mit den Studierenden besprochen, son­­dern auch dafür genutzt werden, um eine ggf. notwendige Nachjustierung in der Lehre vorzunehmen. Dies erhöht auch die Motivation für Stu­die­ren­de, sich an LVE zu beteiligen und Lehrenden ein konstruktives Feed­back zu geben.
  • Der in LVE eingesetzte standardisierte Fragenkanon bildet oft die Spe­zi­fika bestimmter Lehrveranstaltungen, z.B. deren didaktische Konzepte und konkrete Ausgestaltung, nur unzureichend ab. Um einen möglichst hohen Informationsgehalt von LVE zu gewährleisten, sollte Lehrenden die Möglichkeit gegeben werden, das Standardinstrument durch eigene Fragen zu ergänzen.
  • Bei der Kommunikation der Resultate ist auf eine angemessene Er­geb­nis­darstellung zu achten. Dies betrifft insbesondere Angaben zum Rück­lauf, zur Streuung der Daten und zu sinnvollen Vergleichswerten. Diese An­gaben sind ebenso wie der Veranstaltungstyp (z.B. Wahl-/Pflicht­ver­an­stal­tung, didaktisches Konzept, Lernziele) und -kontext (z.B. studentisches Vor­interesse, Schwierigkeitsgrad, Workload) bei der Interpretation der LVE-Ergebnisse zu berücksichtigen. Auf die Angabe von Lehrveran­stal­tungs­bewertungen, die ganz anderen Rahmenbedingungen unter­liegen und somit zu unzulässigen Vergleichen verleiten, ist bei der Er­gebnis­dar­stel­lung ebenso zu verzichten, wie auf die Rückmeldung ver­letzen­der oder beleidigender Antworten auf offene Fragen.
  • Der Prozess sollte durch Fortbildungsmöglichkeiten und Unter­stüt­zungs­­angebote (z.B. Peer-Mentoring) begleitet werden, ohne Lehrende je­doch zu entsprechenden hochschuldidaktischen Kursen zu ver­pflich­ten. Für die Rückmeldung besonders negativer LVE-Ergebnisse sind spe­­zielle Ver­fahren zu implementieren, um negative Effekte, wie eine nach­­haltige Frustration der Lehrenden, durch die Evaluation zu ver­hin­dern.
  • Die Grenzen von LVE als Steuerungsinstrument im Sinne einer sum­ma­tiven Evaluation, d.h. einer abschließenden Bewertung der Lehrleistung zur Ableitung von Folgemaßnahmen, sind anzuerkennen. Sie können eine wichtige, aber sicherlich nicht die einzige Informationsgrundlage im Rah­men von zentralen Entscheidungen (z.B. Berufungen, Entfristungen oder Lehrpreisen) sein. Insbesondere sollten keine Automatismen an LVE-Ergebnisse geknüpft werden (z.B. Mindestziele oder kritische Schwel­­len). Je nach Kontext sind weitere geeignete Informationen zur Lehr­­leistung hinzuziehen. Dies kann z.B. im Rahmen von Lehrproben, Lehr­konzepten oder einer Expertenkommission unter Einbeziehung der Stu­dierenden, erfolgen.
  • Die Zielsetzungen und intendierten Nutzungszwecke von LVE sind al­len Stakeholdern – insbesondere den Lehrenden und Studierenden – vor­ab transparent zu kommunizieren. Hierbei ist auch zu klären, wer die Er­gebnisse einer LVE einsehen darf. Für bestimmte Zwecke (z.B. Nut­zung im Rahmen von Tenure-Track-Verfahren) bedarf es darüber hinaus ggf. einer schriftlichen Fixierung in einer Evaluationssatzung. Daneben sind auch für LVE die Vorgaben aus der Datenschutz-Grundverordnung zu beachten, wobei die konkrete Umsetzung mit den Daten­schutz­be­auf­trag­ten an der jeweiligen Hochschule abzuklären ist.

Literatur

American Sociological Association 2019: Statement on Student Evaluations of Teaching. www.asanet.org/sites/default/files/asa_statement_on_student_evaluations_of_teaching_feb132020.pdf, letzter Aufruf 23. Juni 2020.

Bar, T., Kadiyali, V., Zussman, A. 2009: Grade Information and Grade Inflation: The Cornell Experiment. Journal of Economic Perspectives, vol. 23, no. 3, 93–108.

Boring, A. 2017: Gender Biases in Student Evaluations of Teaching. Journal of Public Economics, vol. 145, 27–41.

Chávez, K., Mitchell, C.M.W. 2020: Exploring Bias in Student Evaluations: Gender, Race, and Ethnicity. Political Science and Politics, vol. 53, no. 2, 270–274.

Chisadza, C., Nicholls, N., Yitbarek, E. 2019: Race and Gender biases in Student Evaluations of Teachers. Economics Letters, vol. 179, 66–71.

Dresel, M., Tinsner, K. 2008: Onlineevaluation von Lehrveranstaltungen: Metho­den­effekte bei der Onlineevaluation von Lehrveranstaltungen. Zeitschrift für Eva­luation, 7. Jg., Heft 2, 183–211.

Dresel, M., Rindermann, H. 2011: Consultation of University Instructors Based on Stu­dent Evaluations of Teaching Effectiveness: Multilevel Test of its Effec­ti­ve­ness under Consideration of Bias and Unfairness Variables. Research in Higher Education, vol. 52, no. 7, 717–737.

Esser, H., 1997: Zweifel an der Evaluation der Lehre. Wirtschaftswissenschaftliches Stu­dium: Zeitschrift für Ausbildung und Hochschulkontakt, 26. Jg., Heft 1, 45–49.

Hamermesh, D.S., Parker, A.M. 2005: Beauty in the Classroom. Instructors› Pul­chri­tude and Putative Pedagogical Productivity. Economics of Education Review, vol. 24, no. 4, 369–376.

Johnson, V.E. 2003: Grade Inflation. A Crisis in College Education. New York: Springer.

Klein, M., Rosar, U. 2006: Das Auge hört mit! Der Einfluss der physischen Attrak­ti­vität des Lehrpersonals auf die studentische Evaluation von Lehr­ver­an­stal­tun­gen – eine empirische Analyse am Beispiel der Wirtschafts- und Sozial­wis­sen­schaft­lichen Fakultät der Universität zu Köln. Zeitschrift für Soziologie, 35. Jg., Heft 4, 305–316.

Kromrey, H. 1994a: Wie erkennt man gute ›Lehre‹? Was studentische Vorlesungs­befra­gungen (nicht) aussagen. Empirische Pädagogik, 8. Jg., Heft 2, 153–168.

Kromrey, H. 1994b: Evaluation der Lehre durch Umfrageforschung? Methodische Fall­stricke bei der Messung von Lehrqualität durch Befragung von Vor­le­sungs­teil­nehmern. In P. Mohler (Hg.), Universität und Lehre. Ihre Evaluation als Her­aus­forderung an die Empirische Sozialforschung. Münster: Waxmann, 91–114.

Marsh, H. 2007: Students‹ Evaluations of University Teaching: A Multidimensional Perspective. In R.P. Perry, J.C. Smart (eds.), The Scholarship of Teaching and Learning in Higher Education: An Evidence-Based Perspective. New York: Springer, 319–384.

Penny, A.R., Coe, R. 2004: Effectiveness of Consultation on Student Ratings Feed­back: A Meta-analysis. Review of Educational Research, vol. 74, no. 2, 215–253.

Rindermann, H. 2001: Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts. Landau: Empirische Pädagogik.

Rindermann, H. 2016: Lehrveranstaltungsevaluation an Hochschulen. Der Einfluss der Rahmenbedingungen auf Qualität von Lehre und Ergebnisse von Lehr­eva­lua­tion. In D. Großmann, T. Wolbring (Hg.), Evaluation von Studium und Lehre. Grundlagen, methodische Herausforderungen und Lösungsansätze. Wies­baden: Springer VS, 227–262

Rivera, L.A., Tilcsik, A. 2019: Scaling Down Inequality: Rating Scales, Gender Bias, and the Architecture of Evaluation. American Sociological Review, vol. 84, no. 2, 248–274.

Spooren, P., Brockx, B., Mortelmans, D. 2013: On the Validity of Student Eva­lua­tion of Teaching: The State of the Art. Review of Educational Research, vol. 83, no. 4, 598–642.

Stark, P.B., Freishtat, R. 2014: An Evaluation of Course Evaluations. ScienceOpen Research, doi: 10.14293/S2199-1006.1.SOREDU.AOFRQA.v1.

Treischl, E., Wolbring, T. 2017: The Causal Effect of Survey Mode on Students’ Eva­luations of Teaching: Empirical Evidence from Three Field Experiments. Re­search in Higher Education vol. 58, no. 8, 904–921.

Weinberg, B.A., Hashimoto, M., Fleisher, B.M. 2009: Evaluating Teaching in Higher Education. Journal of Economic Education, vol. 40, no. 3, 227–261.

Wolbring, T. 2013: Fallstricke der Lehrevaluation. Möglichkeiten und Grenzen der Mess­barkeit von Lehrqualität. Frankfurt am Main, New York: Campus.


[1] Der Vorstand der DGS dankt den Mitgliedern, insbesondere Tobias Wolbring, der zur Er­­­ar­beitung dieser Stellungnahme eingesetzten Kommission: Rolf Becker, Monika Jung­bauer-Gans, Michaela Pfadenhauer, Larissa Schindler, Tobias Wolbring (Kommissions­leitung).

[2] Die Forschung zur studentischen LVE ist aufgrund der an Hochschulen standardmäßig an­­fallenden LVE-Daten und der direkten Betroffenheit der Forschenden durch das In­stru­­ment überaus umfangreich. Zu beachten ist dabei, dass große Unterschiede in der me­thodischen Güte einzelner Studien bestehen. Einzelbefunde sollten daher kritisch ge­prüft und mit dem dazugehörigen Forschungsstand abgeglichen werden.