Loading AI tools
Aus Wikipedia, der freien Enzyklopädie
Die Garbage Collection, kurz GC (englisch für Müllabfuhr, auch automatische Speicherbereinigung oder Freispeichersammlung genannt) bezeichnet in der Software- und Informationstechnik eine automatische Speicherverwaltung, die zur Vermeidung von Speicherproblemen beiträgt; der Vorteil wird mit einem erhöhten Ressourcenverbrauch erkauft. Unter anderem wird der Speicherbedarf eines Computerprogramms minimiert. Dabei wird zur Laufzeit versucht, nicht länger benötigte Speicherbereiche automatisch zu identifizieren, um diese dann freizugeben. Manche automatischen Speicherbereinigungen führen darüber hinaus die noch verwendeten Speicherbereiche zusammen (Defragmentierung).
In vielen Softwaresystemen wird benötigter (Arbeits-)Speicher dynamisch (bei Bedarf) reserviert. Wird er nach Abarbeitung eines Programmteils nicht weiter verwendet, so sollte der Speicher wieder freigegeben werden, um eine Wiederverwendung dieser Ressource zu ermöglichen. Bei einer expliziten, manuellen Speicherverwaltung geschieht dies durch Festlegen der Speicherreservierung und -freigabe im Programm durch den Programmierer, ein schnell komplex und damit potenziell fehlerträchtig werdendes Vorgehen. Neben dem Vergessen einer Freigabe, das längerfristig zu Speicherknappheit führen kann, führt das zu frühe Freigeben von (anderswo) noch benötigtem Speicher meist schnell zum Programmabsturz. Vergessene Speicherfreigaben führen oft nicht sofort zu Auffälligkeiten im Programmablauf – zumindest nicht während der typischerweise nur kurzen Programmläufe während der Entwicklung, sondern erst, wenn das fertige Programm vom Endanwender oft über Stunden und Tage ununterbrochen betrieben wird.
Bei manueller Speicherverwaltung ist es oft nicht möglich oder sehr aufwendig, den Speicher zu defragmentieren. Stark fragmentierter Speicher kann dazu führen, dass eine Speicherreservierung des Programms fehlschlägt, da kein ausreichend großer zusammenhängender Bereich verfügbar ist.
Bei der automatischen Speicherbereinigung ist die Idee, diese Aufgabe durch eine Garbage Collector genannte Routine automatisch erledigen zu lassen, ohne Zutun des Programmierers. D. h. das Speichermanagement wird von einer expliziten Festlegung zur Programmerstellungszeit (Compile-Zeit) zu einer dynamischen Analyse des Speicherbedarfs zur Laufzeit des Programms verschoben.
Üblicherweise läuft eine solche automatische Speicherbereinigung im Hintergrund (bzw. nebenläufig) in mehr oder minder regelmäßigen Zeitabständen (z. B. während Pausen im Programmablauf) und wird nicht explizit durch das Programm ausgelöst. GC kann jedoch häufig auch zusätzlich direkt ausgelöst werden, um dem Programm etwas Kontrolle über die Bereinigung zu geben, z. B. in einer Situation von Speichermangel (Out-Of-Memory).
Es gibt verschiedene Ansätze, um eine automatische Speicherbereinigung zu implementieren. Gewünschte Anforderungen können ein möglichst geringer Speicherverschnitt, eine maximale Allozierungsgeschwindigkeit, eine Reduktion der Speicherfragmentierung und viele weitere mehr sein, die sich durchaus auch widersprechen und zu Zielkonflikten führen können. D. h. je nach Anwendungsfall kann eine automatische Speicherbereinigung sehr unterschiedlich aussehen und sicher viele Anforderungen erfüllen, manche aber auch nicht.
Typischerweise werden jedoch alle diese Varianten zwei Grundtypen von Speicherbereinigungen zugeordnet: Konservative und nicht-konservative Speicherbereinigung.
Unter einer konservativen automatischen Speicherbereinigung versteht man eine, die nicht zuverlässig alle nicht-referenzierten Objekte erkennen kann. Diese hat meistens keine Informationen darüber, wo sich im Speicher Referenzen auf andere Objekte befinden. Zur Speicherbereinigung muss sie den Speicher auf mögliche Referenzen durchsuchen. Jede Bitfolge, die eine gültige Referenz in den Speicher sein könnte, wird als Referenz angenommen. Es kann dabei nicht festgestellt werden, ob es sich dabei nicht doch um ein Zufallsmuster handelt. Daher erkennen konservative Kollektoren gelegentlich Objekte als referenziert, obwohl sie es eigentlich nicht sind. Da eine automatische Speicherbereinigung niemals Objekte entfernen darf, die noch gebraucht werden könnten, muss sie konservativ annehmen, dass es sich bei der erkannten Bitfolge um eine Referenz handelt.
Insbesondere wenn eine automatische Speicherbereinigung auch dringlichere Ressourcen als Speicher freigeben muss (siehe Finalisierung), kann ein konservativer Kollektor ein Risiko darstellen. Im Allgemeinen findet man konservative GCs dort, wo interne Pointer (also Pointer auf unterschiedliche Teile eines Objektes) erlaubt sind, was eine Implementierung der automatischen Speicherverwaltung erschwert. Beispiele dafür sind die Sprachen C und C++. Hier sei anzumerken, dass dies nicht für die verwalteten Typen in C++/CLI gilt, da dort eigene Referenztypen für die automatische Speicherbereinigung eingeführt wurden, die es nicht erlauben, direkt die Adresse eines Objekts auszulesen.
Unter einer nicht-konservativen automatischen Speicherbereinigung (manchmal auch als exakte Speicherbereinigung bezeichnet) versteht man eine, der Metadaten vorliegen, anhand derer sie alle Referenzen innerhalb von Objekten und Stackframes auffinden kann. Bei nicht-konservativer Speicherbereinigung wird zwischen Verfolgung (tracing garbage collectors) und Referenzzählung unterschieden.
Bei diesem Verfahren der Speicherbereinigung wird von bekanntermaßen noch benutzten Objekten ausgehend allen Verweisen auf andere Objekte gefolgt. Jedes so erreichte Objekt wird markiert. Anschließend werden alle nicht markierten Objekte zur Wiederverwendung freigegeben.
Die Freigabe kann zur Speicherfragmentierung führen. Das Problem ist hierbei jedoch etwas geringer als bei manueller Speicherverwaltung. Während bei manueller Speicherverwaltung die Deallozierung immer sofort erfolgt, werden bei Mark-and-Sweep fast immer mehrere Objekte auf einmal beseitigt, wodurch größere zusammenhängende Speicherbereiche frei werden können.
Der Mark-and-Compact-Algorithmus benutzt ebenso wie Mark-and-Sweep das Prinzip der Erreichbarkeit in Graphen, um noch referenzierte Objekte zu erkennen. Diese kopiert er an eine andere Stelle im Speicher. Der ganze Bereich, aus dem die noch referenzierten (man spricht hier auch von „lebenden“) Objekte herauskopiert wurden, wird nun als freier Speicherbereich betrachtet.
Nachteil dieser Methode ist das Verschieben der „lebenden“ Objekte selber, denn Zeiger auf diese werden ungültig und müssen angepasst werden. Hierzu gibt es grundsätzlich wenigstens zwei Verfahren:
Das Verschieben der Objekte hat allerdings den Vorteil, dass jene, die die Bereinigung „überlebt“ haben, nun alle kompaktiert zusammenliegen und der Speicher damit praktisch defragmentiert ist. Auch ist es möglich, sehr schnell zu allozieren, weil freier Speicherplatz nicht aufwändig gesucht wird. Anschaulich: Werden die referenzierten Objekte an den „Anfang“ des Speichers verschoben, kann neuer Speicher einfach am „Ende“, hinter dem letzten lebenden Objekt, alloziert werden. Das Allozieren funktioniert damit vergleichsweise einfach, ähnlich wie beim Stack.
Generationelle GCs verkürzen die Laufzeit der Speicherfreigabe. Dazu wird die Situation ausgenutzt, dass in der Praxis die Lebensdauer von Objekten meist sehr unterschiedlich ist: Auf der einen Seite existieren Objekte, die die gesamte Laufzeit der Applikation überleben. Auf der anderen Seite gibt es eine große Menge von Objekten, die nur temporär für die Durchführung einer einzelnen Aufgabe benötigt werden. Der Speicher wird bei generationellen GCs in mehrere Teilbereiche (Generationen) aufgeteilt. Die Langlebigkeit wird durch einen Zähler quantifiziert, welcher bei jeder Garbage-Collection inkrementiert wird. Mit jeder Anwendung des Freigabe-Algorithmus (zum Beispiel Mark-and-Compact oder Stop-And-Copy) werden langlebige Objekte in eine höhere Generation verschoben. Der Vorteil liegt darin, dass die Speicherbereinigung für niedrige Generationen häufiger und schneller durchgeführt werden kann, da nur ein Teil der Objekte verschoben und deren Zeiger verändert werden müssen. Höhere Generationen enthalten mit hoher Wahrscheinlichkeit nur lebende (bzw. sehr wenige tote) Objekte und müssen deshalb seltener bereinigt werden.
Die Anzahl der Generationen wird heuristisch festgelegt (zum Beispiel drei in .NET, zwei für junge Objekte (auch Young-Generation genannt) und einer für alte Objekte (Tenured-Generation) in der Java-VM von Sun). Zudem können für jede Generation unterschiedliche Algorithmen verwendet werden. In Java beispielsweise wird für die niedrigste Generation ein modifizierter Stop-And-Copy-Algorithmus angewandt, für die höhere Mark-And-Compact.
Bei diesem Verfahren führt jedes Objekt einen Zähler mit der Anzahl aller Referenzen, die auf dieses Objekt zeigen. Fällt der Referenzzähler eines Objektes auf null, so kann es freigegeben werden.
Ein besonderes Problem der Freispeichersammlung mit Referenzzählung liegt in so genannten zyklischen Referenzen, bei denen Objekte Referenzen aufeinander halten, aber sonst von keinem Konsumenten im System mehr verwendet werden. Nehmen wir beispielsweise an, Objekt A halte eine Referenz auf Objekt B und umgekehrt, während der Rest des Systems ihre Dienste nicht mehr benötigt. Somit verweisen beide Objekte gegenseitig (zyklisch) aufeinander, weshalb die automatische Speicherbereinigung nicht ohne weiteres erkennen kann, dass sie nicht mehr benutzt werden. Die Folge hiervon ist, dass der Speicher somit für die Dauer der Programmausführung belegt bleibt. Es gibt unterschiedliche Algorithmen, die solche Situationen erkennen und auflösen können, zumeist nach dem Prinzip der Erreichbarkeit in Graphen.
Mit einer Garbage Collection können einige häufig auftretende Programmierfehler, die beim Umgang mit dynamischer Speicherverwaltung oft gemacht werden, ganz oder zumindest teilweise vermieden werden. Besonders zu erwähnen sind hierbei Speicherlecks, die doppelte Freigabe von Ressourcen und die Dereferenzierung von versehentlich zu früh freigegebenen Ressourcen (Hängende Zeiger). Eine Freigabe noch referenzierter Objekte führt zu hängenden Zeigern, welche oft zu Programmabstürzen und undeterministischem Verhalten führen.
Als Folge des Satzes von Rice kann nicht festgestellt werden, ob noch referenzierte Objekte jemals wieder benutzt werden. Darum gibt eine automatische Speicherbereinigung nur vom Programm nicht mehr referenzierte Objekte frei; sie verhindert keine „Speicherlecks“ der Sorte, dass das Programm auf den Speicherbereich noch eine Referenz hält, den Inhalt jedoch nie wieder nutzt.[1][2][3] Derartige Speicherlecks stellen normalerweise Logische Fehler oder Designfehler (Fehler im Grundkonzept, falsche Anforderungen an die Software, Softwaredesign-Fehler) dar und können auch bei nicht-automatischer Speicherverwaltung entstehen.
Zusätzlich behebt Garbage Collection das Problem der Speicherfragmentierung, das kein Programmierfehler im eigentlichen Sinne ist, jedoch auf ungünstigem Programmdesign basieren kann. Dieses Problem kann zu nur schwer reproduzierbaren Programmabstürzen führen. Das Problem der Speicherfragmentierung wird von explizitem/manuellem Speichermanagement im Allgemeinen nicht gelöst.
Ob eine automatische Speicherbereinigung Programme insgesamt beschleunigt oder ausbremst, ist umstritten. In einigen Kontexten, wie z. B. wenn Speicher erst dann freigegeben wird, wenn die Systemanforderungen gerade niedrig sind oder wenn die Speicherverwaltung des Systems durch Defragmentierung entlastet wird, kann sie zu Leistungssteigerungen führen. Es existieren Microbenchmarks, welche belegen, dass bei Programmiersprachen mit automatischer Speicherbereinigung die Anlage/Freigabe von Objekten in Summe schneller vonstattengeht als ohne,[4][5] jedoch auch Microbenchmarks, die insgesamt einen überwiegend negativen Einfluss auf die Leistungsfähigkeit sehen.[6] Eine Veröffentlichung von 2005 gibt an, dass die Leistungsfähigkeit von Garbage Collection nur dann gleich gut wie oder leicht besser als beim expliziten Speichermanagement sei, wenn der Garbage Collection fünfmal so viel Speicher zusteht, wie tatsächlich benötigt wird. Bei dreimal so viel Speicher liefe Garbage Collection im Schnitt 17 % langsamer, bei doppelt so viel Speicher 70 % langsamer als bei explizitem Speichermanagement.[7]
Beim Speicherverbrauch führt eine automatische Speicherverwaltung und -bereinigung zu einem Overhead gegenüber einem expliziten, händischen Speichermanagement aufgrund der zeitverzögerten Bereinigung. Eine wissenschaftliche Veröffentlichung von 1993 schätzt den Overhead bei konservativer Speicherbereinigung (wie beispielsweise für die Sprache C erhältlich) auf typischerweise 30–150 %.[8] Andererseits ist eine korrekte Implementierung manueller Speicherfreigabe in nicht trivialen Programmen komplex umzusetzen, was Fehlerquellen für Speicherlecks bei manueller Speicherfreigabe schafft. Beispielsweise kann die oft angewandte Methode der Referenzzählung keine zyklischen Referenzen erkennen und führt ohne Ergänzung durch komplexe Algorithmen zu Speicherlecks.
Indem der Programmierer die Entscheidung über den Freigabezeitpunkt nicht explizit festlegt, gibt er auch einen Teil der Kontrolle über den Programmfluss auf. Da die automatische Speicherbereinigung i. d. R. nebenläufig stattfindet, hat das Programm selbst keine Information darüber, wann Speicherbereiche wirklich freigegeben bzw. Objekte finalisiert werden. Dadurch ist der Programmfluss potentiell nicht mehr deterministisch.[9]
Konkret können folgende Formen nicht-deterministischen Verhaltens auftreten:
Mittels kompaktierender Algorithmen kann Garbage Collection eine Fragmentierung des Speichers verhindern. Siehe dazu Mark and Compact. Damit werden Lücken im Speicher vermieden, die aufgrund zu großer neuer Objekte nicht aufgefüllt werden könnten. Defragmentierung führt zwar zu einer längeren Verzögerung beim Freigeben von Speicher, reduziert allerdings die Allozierungsdauer. Um die Speicherfreigabe möglichst schnell durchführen zu können, wird darauf geachtet, dass möglichst selten große Speicherbereiche aufgeräumt werden müssen. Deshalb werden diese Algorithmen bevorzugt in Kombination mit generationellen Verfahren eingesetzt.
Defragmentierung des Speichers führt zu folgenden Vorteilen:
Als Finalisierung (englisch finalization) bezeichnet man in objekt-orientierten Programmiersprachen eine spezielle Methode, die aufgerufen wird, wenn ein Objekt durch den Garbage Collector freigegeben wird.
Anders als bei Destruktoren sind Finalisierungsmethoden nicht deterministisch: Ein Destruktor wird aufgerufen, wenn ein Objekt explizit durch das Programm freigegeben wird. Die Finalisierungsmethode wird jedoch erst aufgerufen, wenn der Garbage Collector entscheidet, das Objekt freizugeben. Abhängig vom Garbage Collector kann dies zu einem beliebigen Zeitpunkt geschehen, wenn festgestellt wird, dass das Programm das Objekt nicht mehr verwendet – möglicherweise auch nie bzw. am Ende der Laufzeit (siehe auch Abschnitt Determinismus).
Die Finalisierung kann in der Praxis zu Problemen führen, wenn sie für die Freigabe von Ressourcen verantwortlich ist:
In der Programmiersprache Java verfügen Objekte über eine spezielle Methode namens finalize()
, die für diesen Zweck überschrieben werden kann. Aus den oben genannten Gründen wird für Java empfohlen, komplett auf Finalisierung zu verzichten und stattdessen eine explizite Terminierungsmethode zu verwenden.[11] Der automatischen Speicherbereinigung fällt dann also ausschließlich die Aufgabe der Speicherverwaltung zu.
Einige ältere (APL, LISP, BASIC) und viele neuere Programmiersprachen verfügen über eine integrierte automatische Speicherbereinigung.
Für Programmiersprachen wie C, bei denen die Programmierer die Speicherverwaltung von Hand erledigen müssen, gibt es teilweise Bibliotheken, die eine automatische Speicherbereinigung zur Verfügung stellen, was bei der Programmierung aber leicht umgangen werden kann, beziehungsweise bei systemnaher Programmierung sogar umgangen werden muss. Aus diesem Grund können in einigen Programmiersprachen systemnah programmierte Module von der automatischen Speicherbereinigung ausgenommen werden, indem sie explizit gekennzeichnet werden (zum Beispiel in C# mit der Option /unsafe oder in Component Pascal mit der obligatorischen Anweisung IMPORT SYSTEM).
Weitere Beispiele für Programmiersprachen mit einer automatischen Speicherverwaltung sind Smalltalk, Haskell, Oberon, Python, Ruby, OCaml, Perl, Visual Objects, ABAP, Objective-C (ab Version 2.0), D sowie alle Sprachen, die auf der Java Virtual Machine (JVM) ablaufen (Java, Groovy, Clojure, Scala, …) sowie die für die Common Language Runtime von .NET entwickelt wurden (zum Beispiel C# oder VB.NET).
Apple führte 2007 mit der Veröffentlichung von Mac OS X Leopard (10.5) Garbage Collection als die „wichtigste Veränderung“ für Objective-C 2.0 ein, die gemäß Apple „Objective-C dieselbe Leichtigkeit der Speicherverwaltung wie bei anderen modernen Sprachen“ brachte.[12] 2012 mit OS X Mountain Lion (10.8) wurde allerdings Garbage Collection als veraltet deklariert und die Verwendung des mit Mac OS X Lion (10.7) eingeführten automatischen Referenzzählungsmechanismus (engl. Automatic reference counting, ARC) zur Kompilierungszeit auf Basis des gerade eingeführten CLANG/LLVM 3.0 Compilers forciert.[13] Bei dieser automatisierten Referenzzählung[14] wird durch den Compiler Code zum Erkennen und Entfernen nicht mehr benötigter Objekten mittels Referenzzählung an geeigneten Stellen eingebaut.[15] Im Gegensatz zu GCs mit Referenzzählung läuft die automatisierte Referenzzählung seriell und an zur Compilezeit festgelegten Zeitpunkten und damit deterministisch.[16] Allerdings enthält ARC keine Möglichkeit, zyklische Referenzen zu erkennen; Programmierer müssen daher die Lebensdauer ihrer Objekte explizit managen und Zyklen manuell auflösen oder mit schwachen oder unsicheren Referenzen arbeiten.[17]
Laut Apple haben Mobil-Apps ohne GC eine bessere und vorhersagbarere Leistungsfähigkeit.[18][19] Das GC-freie iOS als Basis ermöglicht Apple, mobile Geräte mit weniger Speicher als die GC-basierende Konkurrenz zu bauen, welche trotzdem eine gleiche oder bessere Leistungsfähigkeit und Akku-Laufzeit aufweisen; ein Ansatz, der auch in der Fachpresse als architektonischer Vorteil beschrieben wurde.[20][21][22]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.