Se connecter / S'enregistrer
Votre question

Extraction des données depuis un fichier .HTML

Tags :
  • Html
  • Java
Dernière réponse : dans Programmation
2 Août 2013 01:20:42

Bonsoir,
Je souhaiterais extraire des données depuis un fichier .HTML
par exemple:
...
<h1>Bonjour à Tous</h1>
...

=>Je souhaiterais afficher "Bonjour à Tous".
J'ai déjà essayé ,avec le code suivant:
  1. public class extraction {
  2. public static void main(String[] args) {
  3. readFile("fichier.html");
  4. }
  5.  
  6. public static void readFile(String pathToFile){
  7. try {
  8. BufferedReader reader = new BufferedReader(new FileReader(new File(pathToFile)));
  9. String ligne;
  10. while((ligne = reader.readLine()) != null){
  11. if(ligne.endsWith("</h1>")){
  12. System.out.println(ligne);
  13. }
  14.  
  15. }
  16.  
  17. } catch (Exception ex){
  18. System.err.println("Error. "+ex.getMessage());
  19. }
  20. }
  21. }


=>le résultat affiché est: <h1>Bonjour à Tous</h1> or je veux éliminer les deux balises <h1> et </h1>.
merci d'avance :) 

Autres pages sur : extraction donnees fichier html

3 Août 2013 06:08:21

Bonjour,

dans quel langage travaille tu ?

tu devrais pouvoir t'en sortir avec une bonne regex ^^
les balise html son toujours les même ? un substring ?
5 Août 2013 18:55:27

Bonsoir,
C'est le JAVA..
Le problème est résolu en utilisant l'API Jericho (htmlparser).
Tom's guide dans le monde
  • Allemagne
  • Italie
  • Irlande
  • Royaume Uni
  • Etats Unis
Suivre Tom's Guide
Inscrivez-vous à la Newsletter
  • ajouter à twitter
  • ajouter à facebook
  • ajouter un flux RSS