indexing

Dieses Systemkonfigurationselement in der instanzspezifischen Datei config/indexing.xml legt die Details der Indizierung von Inhalten durch den Content Management Server und die Template Engine fest.

  • advancedSearch: Konfiguriert die Indizierung bei Verwendung der erweiterten Suche im Content Management Server. Das Element hat die gleichen Untereinträge wie incrementalExport.

  • contentPreprocessors: Das Element definiert Präprozessoren, die aufgerufen werden, bevor Versionen indiziert werden. Sollen keine Präprozessoren verwendet werden, muss <contentPreprocessors /> angegeben werden. Beispiel für je eine interne und externe Präprozessor-Definition:

    <contentPreprocessors type=list>
      <preprocessor>
        <processor type="internal"/>
        <mimeTypes type="list">
          <mimeType>application/vnd.ms-excel</mimeType>
          <mimeType>application/vnd.ms-powerpoint</mimeType>
          <mimeType>application/msword</mimeType>
        </mimeTypes>
      </preprocessor>
      <preprocessor>
        <processor type="external">bin/tclsh</processor>
        <processorArguments type="list">
          <argument>pdfToTextWrapper.tcl</argument>
        </processorArguments>
        <mimeTypes type="list">
          <mimeType>application/pdf</mimeType>
        </mimeTypes>
      </preprocessor>
      <preprocessor>
        <!-- Weiterer Prozessor für andere MIME-Typen -->
      </preprocessor>
    </contentPreprocessors>

    Jeder Präprozessor ist für mindestens einen MIME-Typ zuständig. Wie bei allen Listen hat das Element contentPreprocessors das obligatorische Attribut type="list". Der Inhalt des Elements sind Unterelemente, die jeweils einen Präprozessor definieren. Jedes preprocessor-Unterelement hat wiederum die folgenden Unterelemente:

    • mimeTypes definiert die MIME-Typen der Versionen, die von diesem Präprozessor bearbeitet werden sollen.

      Attribute: type mit dem Wert list (obligatorisch).

      Inhalt: Je MIME-Typ ein mimeType-Element, dessen Inhalt die jeweilige Bezeichnung des MIME-Typs ist (beispielsweise text/html).

    • processor definiert den Präprozessor für Versionen, die einen der angegebenen MIME-Typen haben.

      Attribute: type mit einem der folgenden Werte: internal, external, ignore, ignoreBlob. Voreinstellung: external.

      Inhalt, wenn type den Wert internal hat: leer. Der Blob wird von der Verity-Filter-Applikation konvertiert, bevor er indiziert wird.

      Inhalt, wenn type den Wert ignore hat: leer. die Version wird nicht indiziert; der Inhalt des Elements wird ignoriert.

      Inhalt, wenn type den Wert ignoreBlob hat: leer. Es werden alle Felder bis auf den Hauptinhalt indiziert. Der Hauptinhalt wird nicht konvertiert (normalerweise werden alle Feldwerte in reinen Text konvertiert, bevor sie indiziert werden).

      Inhalt, wenn type den Wert external hat: Die zu indizierenden Daten werden dem angegebenen Programm übergeben. Zusätzliche Kommandozeilenargumente können ihm über das Element processorArguments übergeben werden. Weitere Erläuterungen zum externen Präprozessor finden Sie in der Dokumentation zum Search Server.

    • processorArguments ist optional. Das Element definiert die Argumente, die dem als processor definierten Programm übergeben werden.

      Attribute: type mit dem Wert list (obligatorisch).

      Inhalt: Je Kommandozeilenargument ein argument-Element, dessen Inhalt der zu übergebende Wert ist.

      Anmerkung: Bis Version 6.7.0 werden die Prozessorargumente direkt im Inhalt des Elements erwartet (Beispiel: <processorArguments>pdfToTextWrapper.tcl<processorArguments>).

  • incrementalExport: Konfiguriert die Indizierung beim inkrementellen Export. Das Element hat die folgenden Untereinträge:

    • isActive: Schaltet die Indizierung ein (true) oder aus (false).

    • collectionSelection: Definiert Regeln, nach denen eine Collection ausgewählt wird, um ein Dokument zu indizieren. Beispiel:

      <collectionSelection>
        <select collection="cm-contents">
          <isEqual name="state" value="edited"/>
        </select>
        <select collection="cm-contents">
          <isEqual name="state" value="released"/>
        </select>
      </collectionSelection>

      Jedes select-Element legt mit collection eine Collection fest, in die ein zu indizierendes Dokument indiziert wird, wenn alle im Element enthaltenen Regeln zutreffen. Die Regeln innerhalb eines select-Elements werden also und-verknüpft. Eine Oder-Verknüpfung kann erreicht werden, indem mehrere select-Elemente mit der gleichen collection-Angabe verwendet werden. Ist das collection-Attribut nicht angegeben, wird das Dokument nicht indiziert, wenn die Regeln zutreffen. Die Regeln werden der Reihe nach abgearbeitet. Der erste zutreffende Satz von Regeln bestimmt, in welche Collection das Dokument indiziert wird, d. h. es ist nicht möglich, ein Dokument in mehr als eine Collection zu indizieren. Es gibt folgende Regeln, die jeweils durch Elemente repräsentiert werden und mit dem Tag-Attribut negate="true" umgekehrt werden können:

      • isEqual: Die Regel trifft zu, wenn der Wert des mit dem Tag-Attribut name angegebenen Datei- oder Versionsfeldes mit der im Tag-Attribut value angegebenen Zeichenkette exakt übereinstimmt. Beispiel:
        <isEqual name="mimeType" value="application/x-shockwave-flash" />

      • isTrue: Die Regel trifft zu, wenn das mit dem Tag-Attribut name angegebene Datei- oder Versionsfeld den Wert true, yes oder 1 hat.

      • isFalse: Die Regel trifft zu, wenn das mit dem Tag-Attribut name angegebene Datei- oder Versionsfeld den Wert false, no oder 0 hat.

      • hasPrefix: Die Regel trifft zu, wenn der Wert des mit dem Tag-Attribut name angegebenen Datei- oder Versionsfeldes mit der im Tag-Attribut value angegebenen Zeichenkette beginnt. Beispiel:
        <hasPrefix name="mimeType" value="application/" />

      • hasSuffix: Die Regel trifft zu, wenn der Wert des mit dem Tag-Attribut name angegebenen Datei- oder Versionsfeldes auf die im Tag-Attribut value angegebene Zeichenkette endet. Beispiel:
        <hasSuffix name="mimeType" value="/zip" />

      • matches: Die Regel trifft zu, wenn der Wert des mit dem Tag-Attribut name angegebenen Datei- oder Versionsfeldes eine Zeichenkette enthält, die auf den im Tag-Attribut value angegebenen regulären Ausdruck passt. Beispiel:
        <matches name="collspec" value=".*live.*" />

  • staticExport: Konfiguriert die Indizierung beim statischen Export durch den Content Management Server. Das Element hat die gleichen Untereinträge wie incrementalExport.

  • vseLocale: Legt die von der Verity Search Cartridge zu verwendenden länderspezifischen Einstellungen fest. Verfügbar sind uni, germanx und englishx (zusätzliche locales können erworben werden). uni ist universell (verwendet UTF-8 als Zeichenkodierung), erlaubt jedoch keine sprachspezifischen Suchanfragefunktionen wie die Wortstamm- und schreibungstolerante Suche. Der eingestellte Wert gilt für alle Collections. Wird er geändert, müssen alle Collections neu erzeugt werden.