Loading AI tools
hardwarenahe Programmiersprache Aus Wikipedia, der freien Enzyklopädie
Eine Assemblersprache, kurz auch Assembler genannt (von englisch to assemble ‚zusammenfügen‘), ist eine Programmiersprache, die auf den Befehlsvorrat eines bestimmten Computertyps (d. h. dessen Prozessorarchitektur) ausgerichtet ist.
Assemblersprachen bezeichnet man deshalb als maschinenorientierte Programmiersprachen und – als Nachfolger der direkten Programmierung mit Zahlencodes – als Programmiersprachen der zweiten Generation: Anstelle eines Binärcodes der Maschinensprache können Befehle und deren Operanden durch leichter verständliche mnemonische Symbole in Textform (z. B. „MOVE“), Operanden z. T. als symbolische Adresse (z. B. „PLZ“), notiert und dargestellt werden.[1]
Der Quelltext eines Assemblerprogramms wird mit Hilfe einer Übersetzungssoftware (Assembler oder Assemblierer) in Maschinencode übersetzt. Dagegen übersetzt in höheren Programmiersprachen (Hochsprachen, dritte Generation) ein sogenannter Compiler abstraktere (komplexere, nicht auf den Prozessor-Befehlssatz begrenzte) Befehle in den Maschinencode der gegebenen Zielarchitektur – oder in eine Zwischensprache.[2]
Umgangssprachlich werden die Ausdrücke „Maschinensprache“ und „Assembler(sprache)“ häufig synonym verwendet.
Ein Quelltext in Assemblersprache wird auch als Assemblercode bezeichnet. Programme in Assemblersprachen zeichnen sich dadurch aus, dass alle Möglichkeiten des Mikroprozessors genutzt werden können, was heutzutage selten erforderlich ist. Sie werden im Allgemeinen nur noch dann verwendet, wenn Programme bzw. einzelne Teile davon sehr zeitkritisch sind, z. B. beim Hochleistungsrechnen oder bei Echtzeitsystemen. Ihre Nutzung kann auch dann sinnvoll sein, wenn für die Programme nur sehr wenig Speicherplatz zur Verfügung steht (z. B. in eingebetteten Systemen).
Unter dem Aspekt der Geschwindigkeitsoptimierung kann der Einsatz von Assemblercode auch bei verfügbaren hochoptimierenden Compilern noch seine Berechtigung haben, Vor- und Nachteile sollten aber für die spezifische Anwendung abgewogen werden. Bei komplexer Technik wie Intel Itanium und verschiedenen digitalen Signalprozessoren kann ein Compiler u. U. durchaus besseren Code erzeugen als ein durchschnittlicher Assemblerprogrammierer, da das Ablaufverhalten solcher Architekturen mit komplexen mehrstufigen intelligenten Optimierungen (z. B. Out-of-order execution, Pipeline-Stalls, …) hochgradig nichtlinear ist. Die Geschwindigkeitsoptimierung wird immer komplexer, da zahlreiche Nebenbedingungen eingehalten werden müssen. Dies ist ein gleichermaßen wachsendes Problem sowohl für die immer besser werdenden Compiler der Hochsprachen als auch für Programmierer der Assemblersprache. Für einen optimalen Code wird immer mehr Kontextwissen benötigt (z. B. Cachenutzung, räumliche und zeitliche Lokalität der Speicherzugriffe), welches der Assemblerprogrammierer teilweise (im Gegensatz zum Compiler) durch Laufzeitprofiling des ausgeführten Codes in seinem angestrebten Anwendungsfeld gewinnen kann. Ein Beispiel hierfür ist der SSE-Befehl MOVNTQ, welcher wegen des fehlenden Kontextwissens von Compilern kaum optimal eingesetzt werden kann.
Die Rückwandlung von Maschinencode in Assemblersprache wird Disassemblierung genannt. Der Prozess ist allerdings bei fehlenden Debug-Informationen hochgradig verlustbehaftet, da sich viele Informationen wie ursprüngliche Bezeichner oder Kommentare nicht wiederherstellen, da diese beim Assemblieren nicht in den Maschinencode übernommen wurden oder berechnet wurden.
Programmbefehle in Maschinensprache bilden sich aus dem Operationscode (Opcode) und meist weiteren, je nach Befehl individuell festgelegten Angaben wie Adressen, im Befehl eingebettete Literale, Längenangaben etc. Da die Zahlenwerte der Opcodes schwierig zu merken sind, verwenden Assemblersprachen leichter merkbare Kürzel, sogenannte mnemonische Symbole (kurz Mnemonics).[3]
Beispiel: Der folgende Befehl in der Maschinensprache von x86-Prozessoren
10110000 01100001 (in hexadezimaler Darstellung: 'B0 61')
entspricht dem Assemblerbefehl
movb $0x61, %al # AT&T-Syntax (alles nach „#“ ist Kommentar)
# mnemonisches Kürzel bedeutet „move_byte von/was , nach“
bzw.
mov al, 61h ; Intel-Syntax; das ‚mov‘ als mnemotechnisches Kürzel erkennt
; aus dem angesprochenen ‚al‘, dass nur 1 Byte kopiert werden soll.
; „mov wohin , was/woher“
und bedeutet, dass der hexadezimale Wert „61“ (dezimal 97) in den niederwertigen Teil des Registers „ax“ geladen wird; „ax“ bezeichnet das ganze Register, „al“ (für low) den niederwertigen Teil des Registers. Der hochwertige Teil des Registers kann mit „ah“ angesprochen werden (für „high“).
Am Beispiel ist zu erkennen, dass – obwohl in denselben Maschinencode übersetzt wird – die beiden Assembler-Dialekte deutlich verschieden formulieren.
Mit Computerhilfe kann man das eine in das andere weitgehend eins zu eins übersetzen. Jedoch werden Adressumformungen vorgenommen, so dass man symbolische Adressen benutzen kann. Die Eingabedaten für einen Assembler enthalten neben den eigentlichen Codes/Befehlen (die er in Maschinencode übersetzt) auch Steueranweisungen, die seine Arbeitsweise bestimmen/festlegen, zum Beispiel zur Definition eines Basisregisters.
Häufig werden komplexere Assemblersprachen (Makroassembler) verwendet, um die Programmierarbeit zu erleichtern. Makros sind dabei im Quelltext enthaltene Aufrufe, die vor dem eigentlichen Assemblieren automatisch durch (meist kurze) Folgen von Assemblerbefehlen ersetzt werden. Dabei können einfache, durch Parameter steuerbare Ersetzungen vorgenommen werden. Die Disassemblierung von derart generiertem Code ergibt allerdings den reinen Assemblercode ohne die beim Übersetzen expandierten Makros.
Ein sehr einfaches Programm, das zu Demonstrationszwecken häufig benutzte Hallo-Welt-Beispielprogramm, kann zum Beispiel in der Assemblersprache MASM für MS-DOS aus folgendem Assemblercode bestehen:
ASSUME CS:CODE, DS:DATA ;- dem Assembler die Zuordnung der Segmentregister zu den Segmenten mitteilen
DATA SEGMENT ;Beginn des Datensegments
Meldung db "Hallo Welt" ;- Zeichenkette „Hallo Welt“
db 13, 10 ;- Neue Zeile
db "$" ;- Zeichen, das die Textausgabefunktion (INT 21h, Unterfunktion 09h) als Zeichenkettenende versteht
DATA ENDS ;Ende des Datensegments
CODE SEGMENT ;Beginn des Codesegments
Anfang: ;- Einsprung-Label fuer den Anfang des Programms
mov ax, DATA ;- Adresse des Datensegments in das Register „AX“ laden
mov ds, ax ; In das Segmentregister „DS“ uebertragen (das DS-Register kann nicht direkt mit einem Wert beschrieben werden)
mov dx, OFFSET Meldung ;- die zum Datensegment relative Adresse des Textes in das „DX“ Datenregister laden
; die vollstaendige Adresse von „Meldung“ befindet sich nun im Registerpaar DS:DX
mov ah, 09h ;- die Unterfunktion 9 des Betriebssysteminterrupts 21h auswaehlen (Textausgaberoutine)
int 21h ;- den Betriebssysteminterrupt 21h aufrufen (hier erfolgt die Ausgabe des Textes am Schirm)
mov ax, 4C00h ;- die Unterfunktion 4Ch (Programmbeendigung) des Betriebssysteminterrupts 21h festlegen
int 21h ;- damit wird die Kontrolle wieder an das Betriebssystem zurueckgegeben (Programmende)
CODE ENDS ;Ende des Codesegments
END Anfang ;- dem Assembler- und Linkprogramm den Programm-Einsprunglabel mitteilen
;- dadurch erhaelt der Befehlszaehler beim Aufruf des Programmes diesen Wert
Vergleichende Gegenüberstellungen für das Hallo-Welt-Programm in unterschiedlichen Assemblerdialekten enthält diese Liste.
In einem Pascal-Quelltext (eine Hochsprache) kann der Programmcode für „Hallo Welt“
dagegen deutlich kürzer sein:
program Hallo(output);
begin
writeln('Hallo Welt')
end.
Jede Computerarchitektur hat ihre eigene Maschinensprache und damit Assemblersprache. Mitunter existieren auch mehrere Assemblersprachen-Dialekte („verschiedene Assemblersprachen“, sowie zugehörige Assembler) für die gleiche Prozessorarchitektur. Die Sprachen verschiedener Architekturen unterscheiden sich in Anzahl und Typ der Operationen.
Jedoch haben alle Architekturen die folgenden grundlegenden Operationen:
Bestimmte Rechnerarchitekturen haben oft auch komplexere Befehle (CISC) wie z. B.:
DJZ A,xyz
~ 'decrement A, Jump if Zero to xyz')),Die erste Assemblersprache wurde 1947 von Kathleen Booth entwickelt.[4][5] Sie entwarf im Anschluss den Assembler für die ersten Computersysteme am Birkbeck College der University of London. Zwischen 1948 und 1950 schrieb Nathaniel Rochester einen der frühsten symbolischen Assembler für eine IBM 701.
In den 1980er und frühen 1990er Jahren wechselte die Sprache, in der Betriebssysteme für größere Rechner geschrieben wurden, von Assembler zu Hochsprachen hin, meist C, aber auch C++ oder Objective C. Hauptauslöser war die steigende Komplexität von Betriebssystemen bei größerem verfügbaren Speicher im Bereich oberhalb von einem Megabyte. In Assembler verblieben zum Beispiel das Zwischenspeichern von Registern bei Prozesswechsel (siehe Scheduler), oder bei der x86-Architektur der Teil des Boot-Loaders, der innerhalb des 512 Byte großen Master Boot Records untergebracht sein muss. Auch Teile von Gerätetreibern werden in Assemblersprache geschrieben, falls aus den Hochsprachen kein effizienter Hardware-Zugriff möglich ist. Manche Hochsprachencompiler erlauben es, direkt im eigentlichen Quellcode Assemblercode, sogenannte Inline-Assembler, einzubetten.
Bis ca. 1990 wurden die meisten Computerspiele in Assemblersprachen programmiert, da nur so auf Heimcomputern und den damaligen Spielkonsolen eine akzeptable Spielgeschwindigkeit und eine den kleinen Speicher dieser Systeme nicht sprengende Programmgröße zu erzielen war. Noch heute gehören Computerspiele zu den Programmen, bei denen am ehesten kleinere assemblersprachliche Programmteile zum Einsatz kommen, um so Prozessorerweiterungen wie SSE zu nutzen.
Bei vielen Anwendungen für Geräte, die von Mikrocontrollern gesteuert sind, war früher oft eine Programmierung in Assembler notwendig, um die knappen Ressourcen dieser Mikrocontroller optimal auszunutzen. Um Assemblercode für solche Mikrocontroller zu Maschinencode zu übersetzen, werden Cross-Assembler bei der Entwicklung eingesetzt. Heute sind Mikrocontroller so günstig und leistungsfähig, dass moderne C-Compiler auch in diesem Bereich die Assembler weitgehend abgelöst haben. Nicht zuletzt aufgrund größerer Programmspeicher bei geringen Aufpreisen für die Chips fallen die Vorteile von Hochsprachen gegenüber den teils geringen Vorteilen der Assemblersprache immer mehr ins Gewicht.
Assemblerprogramme sind sehr hardwarenah geschrieben, da sie direkt die unterschiedlichen Spezifikationen und Befehlssätze der einzelnen Computerarchitekturen (Prozessorarchitektur) abbilden. Daher kann ein Assemblerprogramm im Allgemeinen nicht auf ein anderes Computersystem (andere Prozessorarchitektur) übertragen werden, ohne dass der Quelltext angepasst wird. Das erfordert, abhängig von den Unterschieden der Assemblersprachen, hohen Umstellungsaufwand, unter Umständen ist ein komplettes Neuschreiben des Programmtextes erforderlich. Im Gegensatz dazu muss bei Hochsprachen oft nur ein Compiler für die neue Zielplattform verwendet werden.
Quelltexte in Assemblersprache sind fast immer deutlich länger als in einer Hochsprache, da die Instruktionen weniger komplex sind und deshalb gewisse Funktionen/Operationen mehrere Assemblerbefehle erfordern; z. B. müssen beim logischen Vergleich von Daten (= > < …) ungleiche Datenformate oder -Längen zunächst angeglichen werden. Die dadurch größere Befehlsanzahl erhöht das Risiko, unübersichtlichen, schlecht strukturierten und schlecht wartbaren Programmcode herzustellen.
Nach wie vor dient Assembler zur Mikro-Optimierung von Berechnungen, für die der Hochsprachencompiler nicht ausreichend effizienten Code generiert.[6][7] In solchen Fällen können Berechnungen effizienter direkt in Assembler programmiert werden. Beispielsweise sind im Bereich des wissenschaftlichen Rechnens die schnellsten Varianten mathematischer Bibliotheken wie BLAS[8][9] oder bei architekturabhängigen Funktionen wie der C-Standardfunktion memcpy
[10][11] weiterhin die mit Assembler-Code. Auch lassen sich gewisse, sehr systemnahe Operationen unter Umgehung des Betriebssystems (z. B. direktes Schreiben in den Bildschirmspeicher) nicht in allen Hochsprachen ausführen.
Der Nutzen von Assembler liegt auch im Verständnis der Arbeits- und Funktionsweise eines Systems, das durch Konstrukte in Hochsprachen versteckt wird. Auch heute noch wird an vielen Hochschulen Assembler gelehrt, um ein Verständnis für die Rechnerarchitektur und seine Arbeitsweise zu bekommen.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.