Zunächst sollen einige Begriffe definiert werden:

  • Tag – dies ist ein XML Bestandteil, der in spitzen Klammern geschrieben ist und jeweils einen Block umschließt, z.B. <component>, Tag können geschachtelt werden. Nach XML Normierung wäre an dieser Stelle eigentlich der Begriffe Element zu verwenden, aber Tag hat sich als unkritischer Begriff für alles, was in spitzen Klammern steht, eingebürgert.
  • Root-Element – Damit wird das Tag auf oberster Ebene in einem Dokument bezeichnet, also das Tag, das alle anderen Bestandteile des Dokumentes mit Ausnahme der processing instruction (s. u.) umschließt.
  • Attribut – dieser XML Bestandteil kann ein Tag näher bestimmen, es besteht aus einem Schlüssel und einer Ausprägung, z.B. <component id= "MPDBES1">
  • Entität – Verweis auf eine an anderer Stelle verfügbare Definition (Platzhalter für einen komplexeren Ausdruck), Entitäten beginnen immer mit & und enden immer mit ;, ein Beispiel ist die Entität für das Sonderzeichen &, welches von dem für die Kennzeichnung von Entitäten benutzten & unterschieden werden muss: &amp;


Im Folgenden werden einige Regeln für die Erstellung eines wohlgeformten XML Dokumentes aufgeführt. 

XML-Dokumente beginnen immer mit der XML Deklaration.

In der ersten Zeile einer XML-Datei muss die Processing Instruction (Arbeitsanweisung) stehen, davor darf nicht einmal eine Leerzeile stehen. Die Processing Instruction beginnt mit <? und endet mit ?> und beinhaltet 2 Attribute: version und encoding (wichtig für Darstellung von Sonderzeichen und Umlauten).
Das Attribut version gibt die dem Dokument zugrundeliegende XML-Version an - bei der zur Zeit einzig gültigen Version von XML handelt es sich um Version 1.0.
Das Attribut encoding gibt den innerhalb des Dokument verwendeten Zeichensatz an.

Beispiel:

<?xml version="1.0" encoding="ISO-8859-1"?>

Auszug von möglichen Werten für das Attribut encoding (ISO-8859 und ISO/IEC-10646):

ISO-Norm

Zeichensatz

UTF-8

Internationaler Zeichensatz

UTF-16

Internationaler Zeichensatz

ISO-8859-1

Westeuropa (Latin-1)

ISO-8859-2

Osteuropa (Latin-2)

ISO-8859-3

Südeuropa (Latin-3)

ISO-8859-4

Nordeuropa (Latin-4)

ISO-8859-5

Kyrillisch

ISO-8859-6

Arabisch

ISO-8859-7

Griechisch

ISO-8859-8

Hebräisch

ISO-8859-9

Türkisch (Latin-5)

ISO-8859-10

Nordisch (Latin-6)


Jedes TAG muss geschlossen werden.

Beispiel:

<Anrede>Herr</Anrede> 

Leere TAG können auf / enden.

TAG, die keine Daten enthalten, benötigen nicht zwingend ein schließendes TAG, sie können auch mit /> geschlossen werden. 

Beispiel:

<br/> ist identisch mit <br></br> 

Das Root-Element muss das gesamte Dokument beinhalten.

Es gibt immer nur ein Root-Element im Dokument (neben der processing instruction), mehrere TAG auf oberster Ebene sind verboten. 

Beispiel:

<?xml version="1.0" ?>  ← richtig  
<PARM>
      ...  
</PARM> 


<?xml version="1.0" ?>  ← falsch 
<PARM1> 
      ...  
</PARM1> 
<PARM2>
      ...  
</PARM2> 


TAGs können andere TAGs beinhalten, dürfen sich jedoch nicht überlappen.

Beispiel:

 <Anrede>         ← falsch, da Reihenfolge der TAG falsch
       <Begrüßung>
             Guten Tag 
       </Anrede>
 </Begrüßung> 

 <Anrede>        ← richtig, da korrekte Reihenfolge der TAG
       <Begrüßung>
             Guten Tag 
       </Begrüßung>
 </Anrede>


Attributwerte müssen in " " stehen.

Beispiel:

<Sprache type="Deutsch"> 

Die Zeichen „<" und „&" dürfen nur als Beginn eines TAGS bzw. einer Entitätsreferenz verwendet werden.

Beispiel:

<Sprache type="Deutsch">

aus &lt; entsteht <

Benutzen Sie nur die fünf definierten Entitätsreferenzen

&

&amp;

<

&lt;

>

&gt;

"

&quot;

´

&apos;


Alle anderen Entitätsreferenzen die z.B. in HTML verwendet werden, müssten erst in einer DTD definiert werden.

  • Keine Stichwörter
>