Se connecter / S'enregistrer
Votre question

.doc/.docx/.pdf -> .txt en php

Tags :
  • Php
  • Pdf
  • Programmation
Dernière réponse : dans Programmation
2 Février 2012 10:19:23

Salut a tous,
Je reviens vers vous avec une nouvelle enigme..
Comme précédemment expliqué dans un autre post, je suis en stage a Malte et dois créer une application qui trie des CV.
Ceux-ci sont au format (.doc/.docx/.rtf/.pdf) et doivent etre analysés par mon application pour etre triés..
Je me suis dit que le faire en PHP serait cool, pour automatiser tout ca, car j'en ai quand meme 20.000 a trier.

Je sais que l'on retrouve pas mal de "librairies" ou "scripts" sur internet qui "marchent du tonnerre", mais en fait pas du tout .. ou bien c'est moi qui suis con :( 
J'ai donc demandé de l'aide a des amis assez balaises en PhP, et meme eux n'y sont pas arrivés ..
Auriez-vous une idée ? J'ai fait des dizaines de forums et testé des dizaines de choses, rien ne semble fonctionner.

Je ne me trompe quand meme pas, le plus facile pour les analyser est de les transforner en .txt pour pouvoir les lire tranquillement non?
Enfin, dans tous les cas, je dois etre capable de voir leur contenu.

Alors, si certains d'entre vous ont des solutions, ou des idées, je suis preneur..

Un grand merci :) 

Autres pages sur : doc docx pdf txt php

a c 232 L Programmation
2 Février 2012 10:37:14

Salut,

Tu n'as pas forcément besoin de les transformer en .txt
Tout ce dont tu as besoin, c'est de pouvoir les ouvrir pour voir le contenu.
Je te dirais bien qu'il y a plein de librairies pour faire ça normalement... Par exemple le 1er lien trouvé : http://davidwalsh.name/read-pdf-doc-file-php
Ca te permet de récupérer tout le texte d'un .pdf/.doc, à toi de rechercher dans le contenu après.
Pour .docx et .rtf ça devrait être encore plus simple.
Le .docx étant un zip, il faut dézipper et récupérer le fichier document.xml contenu dans le dossier word. Et il contient tout le contenu du fichier au format XML, une fois les balises supprimées, tu n'as plus que le texte. Donc ça doit se trouver facilement des librairies qui font ça.
Et pour le .rtf, c'est directement un fichier texte qui a quelques propriétés supplémentaires dedans pour le formatage, etc... Donc c'est pareil, il suffit de supprimer tout ce qui est associé au formatage, et tu as ton fichier texte.
2 Février 2012 11:29:30

Merci pour ta rapidité, encore une fois je me répete, mais j'ai deja testé toutes ces librairies.. et rien ne fonctionne.. pour le dezippage du docx et le rtf,je savais.. mais les pdf et doc .. Rien ne fonctionne
Contenus similaires
a c 232 L Programmation
2 Février 2012 11:39:49

Tu as un serveur Linux / Windows ?
Tu as des erreurs ? Fais voir le code que tu as utilisé
2 Février 2012 11:48:20

J'ai trouvé des exemples sur le net pour une utilisation windows.
Je suis donc sous wamp, j'ai telechargé l'archive developpeurs datant de 2005 sur le site, et l'ai dezippe dans le www\antiword ..
Aucune erreur, il ne me retourne simplement rien.

  1. <?php
  2. $filename = "resume.doc";
  3. $content = shell_exec('C:\wamp\www\antiword\antiword '.$filename);
  4. echo $content;
  5. echo "lol";
  6. ?>


il m'affiche mon "lol", c'est tout.

a c 232 L Programmation
2 Février 2012 11:51:01

Il faut à mon avis lui donner le chemin absolu du fichier...
  1. $filename = "C:\....\resume.doc"


Par contre, s'il y a des espaces dedans, il faut mettre des quotes autour
2 Février 2012 11:55:59

J'ai testé, ca ne change rien ..
2 Février 2012 12:05:37

Et tout ce qui touche aux "COM" aussi. :( 
Tom's guide dans le monde
  • Allemagne
  • Italie
  • Irlande
  • Royaume Uni
  • Etats Unis
Suivre Tom's Guide
Inscrivez-vous à la Newsletter
  • ajouter à twitter
  • ajouter à facebook
  • ajouter un flux RSS