Fehlender Delimiter bei GetPageText

  • Hallo,

    obwohl Text in der PDF Darstellung getrennt erscheint
    (z.B. Erster Text <optischer zwischenraum> Zweiter Text)
    liefert die Funktion GetTextPage 'Erster TextZweiter Text' zurück.

    Gibt es eine Möglichkeit den Text als 'ErsteText'#$9'ZweiterText' zu bekommen? Ich möchte also an jeder optischen Leerstelle (nicht jedoch bei einem #$20) ein Tab-Symbol #$9 eingefügt sehen.

    Der durchgehende Text führt besonders beim automatischen Suchen in der PDF zu Problemen. Auch leidet generell die Lesbarkeit des erhaltenen Textes.

    Gruß
    Gerhard Zampich

    • Offizieller Beitrag

    Hallo,

    Wenn im PDF keine Delimiter enthalten sind, muss WPViewPDF diese anhand der position der Text erkennen. Das geht nicht immer, auch andere PDF->Text converter haben dieses Problem.

    Die spaces sollten bei einer guten PDF eigentlich gedruckt werden - manche PDF erzeuger sparen diese aber und verwenden nur einen X unterschied. Diesen kann man nicht so ohne weiteres verwenden.

    Grüsse,

    Julian Ziersch

  • Zitat von wpsupport

    Die spaces sollten bei einer guten PDF eigentlich gedruckt werden - manche PDF erzeuger sparen diese aber und verwenden nur einen X unterschied. Diesen kann man nicht so ohne weiteres verwenden.

    Wenn ich also einen Trenner sehen will, so muß der Ersteller der PDF selbst ein <leerzeichen> oder ein <tab> einfügen. Ist das so richtig?

    Würde es vielleicht helfen, wenn ich Ihnen ein Beispiel schicke?

    Gruß
    Gerhard Zampich