茫茫網海中的冷日 - 對這文章發表回應
茫茫網海中的冷日
         
茫茫網海中的冷日
發生過的事,不可能遺忘,只是想不起來而已!
 恭喜您是本站第 1673008 位訪客!  登入  | 註冊
主選單

Google 自訂搜尋

Goole 廣告

隨機相片
IMG_60D_00172.jpg

授權條款

使用者登入
使用者名稱:

密碼:


忘了密碼?

現在就註冊!

對這文章發表回應

發表限制: 非會員 可以發表

發表者: 冷日 發表時間: 2012/7/5 14:16:05
Java 解析 PDF, pdfbox读取PDF内容
博客分类: JavaJava 网页抓取
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.OutputStreamWriter;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class Pdftext {
 public static String getTxt(File f) throws Exception {
  String ts = "";
  try {
   String temp = "";
   PDDocument pdfdocument = PDDocument.load(f);

   ByteArrayOutputStream out = new ByteArrayOutputStream();
   OutputStreamWriter writer = new OutputStreamWriter(out);
   PDFTextStripper stripper = new PDFTextStripper();

   stripper.writeText(pdfdocument.getDocument(), writer);

   pdfdocument.close();
   out.close();
   writer.close();
   byte[] contents = out.toByteArray();
   ts = new String(contents);
   System.out.println(f.getName() + "length is:" + contents.length
     + "\n");
  } catch (Exception e) {
   e.printStackTrace();
  } finally {
   return ts;
  }
 }

 public static void main(String[] args) throws Exception {

     File file = new File("d:/hello.pdf");
     System.out.println(Pdftext.getTxt(file));


/*
  File file = new File("d:/hello.pdf");
  FileInputStream fis = new FileInputStream(file);
  BufferedInputStream bis = new BufferedInputStream(fis);
  PDFParser parser = new PDFParser(bis);

  //
  parser.parse();
  PDDocument document = parser.getPDDocument();

  PDFTextStripper stripper = new PDFTextStripper();
  String s = stripper.getText(document);

  // ////////////
  document.close();// /////////
  bis.close();

  // //////////
  File ff = new File("d:/hello.pdf");
  ff.createNewFile();

  if (ff.exists())

  {
   ff.createNewFile();
  }

  FileWriter fw = new FileWriter(ff);

  BufferedWriter bw = new BufferedWriter(fw);

  bw.write(s);
  bw.close();*/

 }

}


原文出處:Java 解析 PDF, pdfbox读取PDF内容 - - ITeye技术网站
內容圖示
url email imgsrc image code quote
樣本
bold italic underline linethrough   












 [詳情...]
validation picture

注意事項:
預覽不需輸入認證碼,僅真正發送文章時才會檢查驗證碼。
認證碼有效期10分鐘,若輸入資料超過10分鐘,請您備份內容後,重新整理本頁並貼回您的內容,再輸入驗證碼送出。

選項

Powered by XOOPS 2.0 © 2001-2008 The XOOPS Project|