PDF-Dokumente mit PHP in Text umwandeln

Friedrich

Mitglied
Hallo,

für ein Projekt möchte ich abgelegte PDF-Dokumente durchsuchen können (einfache Suchfunktion).
Dafür müssten diese Dokumente als Textdokumente extra abgespeichert werden.

Hier fand ich ein paar Codes "pdf2text":
http://de3.php.net/manual/de/ref.pdf.php

Bei einigen PDF-Dateien funktioniert es sogar. Aber auch nur bei einigen.
Woran könnte das liegen? Und wie könnte man dieses Woran entfernen?
Oder kennt ihr andere Möglichkeiten NUR den Text aus PDF-Dokumenten zu lesen?

Friedrich
 
also wenn es nur um das Auffinden von Strings geht suche mal nach "Verity search engine". Das funktioniert mit html, pdf, txt, Doc und Datenbanken

Gruß Ronny
 
hi

also ich würde mit xpdf arbeiten. installiert du auf deinem server (wenn möglich sonst frag dein admin) und kannst über exec dann ansprechen. finde ich die beste variante. über php klassen, dauerte es in meinem projekten meist zu lange oder war zu ungenau die "extraction".

hoffe konnte dir weiterhelfen

grüsse
jeliel
 
Hallo,

Was meinst du mit "über php klassen, dauerte es in meinem projekten meist zu lange oder war zu ungenau die "extraction"."?
Es gibt also auch die Möglichkeit per PHP PDF-Dateien in Textdateien umzuwandeln? Bei mir kam (mit den Scripten, die ich ausprobiert habe) manchmal ein richtiges Ergebnis heraus, manchmal gar nichts und manchmal einfach nur komisch schöne Zeichen.

Oder kann man einfach nach einem Begriff in einer PDF-Datei mit Hilfe von PHP suchen und dann das Ergebnis (vorhanden ja/nein) ausgeben?

Wie macht das eigentlich Google?

Friedrich
 
hi,

ich fang mal von hinten an. google oder grosse firmen, die auch eine bestimmte masse an dokumenten indexieren wollen würden nicht auf php zurückgreifen. glaub dann eher auf richtige software auf basis von c, c++ usw.

komische zeichen kriegst du schon mal dadurch das ein pdf images, fonts, javascript, encoding usw mit einbindet. dies müste auch alles gefiltert werden. dann müsstest du dort, wo der text object existiert noch den richtigen komprimierungsverfahren herausfinden und davor vl noch, falls verschlüsselt wurde, den key und die verschlüsselungsart. im grossen und ganzen nicht wirklich schwer aber sicher etwas übertrieben aufwändig nur um texte zu indexieren.

mein vorschlag wäre, installier ghostscript oder xpdf. dann über exec ansprechen. mit ghostscript könntest sogar dann ein thumbnail aufbauen als voransicht.

falls aber dein provider dir diese möglichkeit nicht anbietet, sachen zu installieren, dann installiere php und ne datenbank lokal, schreib ein skript der eins der tools ausführt und am ende eine verbindung zu deiner 'live' datenbank aufbaut und die texte einträgt.

liebe grüsse,
jeliel
 
Zurück
Oben