亚洲成人av电影,亚洲国产三级,久久久一区二区三区捆绑**

tesseract-ocr識別中文掃描圖片實例講解

本文參考http://blog.csdn.net/zhoushuyan/archive/2010/10/18/5948289.aspx#1567946實現，在這里感謝該文章的作者。

當我瀏覽http://code.google.com/p/tesseract-ocr并下載了幾個文件下來之后頓時感到一頭霧水，不知該如何下手。網上看到有人在linux操作系統下的實現，

如：

利用開源程序（ImageMagick+tesseract-ocr）實現圖像驗證碼識別

但卻很少看到在windows下的相關文章介紹。

接下來我將一步步講述如何采用tesseract-ocr識別含有中文的圖片。

1、下載tesseract-ocr（注意3.0版本之后才支持中文的識別）

tesseract-ocr-setup-3.00.exe

chi_sim.traineddata.gz

2、安裝tesseract-ocr

解壓縮，雙擊 tesseract-ocr-setup-3.00.exe 即可根據提示一步步安裝，本人安裝的目錄是：D:\Program Files\Tesseract-OCR

在該目錄下可看到tesseract.exe文件，這就是我們后面程序中會調用到的運行進程。

3、自定義安裝語言包

D:\Program Files\Tesseract-OCR目錄下找到\tessdata目錄，其是用來存放語言包，可把 chi_sim.traineddata.gz 解壓縮之后的chi_sim.traineddata文件復制到該目錄下即可。

4、編寫測試代碼

在編寫代碼之前下載兩個jar包：jai_imageio-1.1-alpha.jar、swingx-1.0.jar，可在www.findjar.com 網站上去下載。

view plain copy to clipboard print ?

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.Locale;
import javax.imageio.IIOImage;
import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.ImageWriteParam;
import javax.imageio.ImageWriter;
import javax.imageio.metadata.IIOMetadata;
import javax.imageio.stream.ImageInputStream;
import javax.imageio.stream.ImageOutputStream;
import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
public class ImageIOHelper {
/**
* 圖片文件轉換為tif格式
* @param imageFile 文件路徑
* @param imageFormat 文件擴展名
* @return
*/
public static File createImage(File imageFile, String imageFormat) {
File tempFile = null;
try {
Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
ImageReader reader = readers.next();
ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
reader.setInput(iis);
//Read the stream metadata
IIOMetadata streamMetadata = reader.getStreamMetadata();
//Set up the writeParam
TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
//Get tif writer and set output to file
Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
ImageWriter writer = writers.next();
BufferedImage bi = reader.read(0);
IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
tempFile = tempImageFile(imageFile);
ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
writer.setOutput(ios);
writer.write(streamMetadata, image, tiffWriteParam);
ios.close();
writer.dispose();
reader.dispose();
} catch (IOException e) {
e.printStackTrace();
}
return tempFile;
}
private static File tempImageFile(File imageFile) {
String path = imageFile.getPath();
StringBuffer strB = new StringBuffer(path);
strB.insert(path.lastIndexOf('.'),0);
return new File(strB.toString().replaceFirst("(?<=\\.)(\\w+)$", "tif"));
}
}

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.Locale;
import javax.imageio.IIOImage;
import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.ImageWriteParam;
import javax.imageio.ImageWriter;
import javax.imageio.metadata.IIOMetadata;
import javax.imageio.stream.ImageInputStream;
import javax.imageio.stream.ImageOutputStream;
import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
public class ImageIOHelper {
/**
* 圖片文件轉換為tif格式
* @param imageFile 文件路徑
* @param imageFormat 文件擴展名
* @return
*/
public static File createImage(File imageFile, String imageFormat) {
File tempFile = null;
try {
Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
ImageReader reader = readers.next();
ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
reader.setInput(iis);
//Read the stream metadata
IIOMetadata streamMetadata = reader.getStreamMetadata();
//Set up the writeParam
TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
//Get tif writer and set output to file
Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
ImageWriter writer = writers.next();
BufferedImage bi = reader.read(0);
IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
tempFile = tempImageFile(imageFile);
ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
writer.setOutput(ios);
writer.write(streamMetadata, image, tiffWriteParam);
ios.close();
writer.dispose();
reader.dispose();
} catch (IOException e) {
e.printStackTrace();
}
return tempFile;
}
private static File tempImageFile(File imageFile) {
String path = imageFile.getPath();
StringBuffer strB = new StringBuffer(path);
strB.insert(path.lastIndexOf('.'),0);
return new File(strB.toString().replaceFirst("(?<=\\.)(\\w+)$", "tif"));
}
}

view plain copy to clipboard print ?

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.jdesktop.swingx.util.OS;
public class OCR {
private final String LANG_OPTION = "-l"; //英文字母小寫l，并非數字1
private final String EOL = System.getProperty("line.separator");
private String tessPath = "D:\\Program Files\\Tesseract-OCR";
//private String tessPath = new File("tesseract").getAbsolutePath();
public String recognizeText(File imageFile,String imageFormat)throws Exception{
File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
File outputFile = new File(imageFile.getParentFile(),"output");
StringBuffer strB = new StringBuffer();
List<String> cmd = new ArrayList<String>();
if(OS.isWindowsXP()){
cmd.add(tessPath+"\\tesseract");
}else if(OS.isLinux()){
cmd.add("tesseract");
}else{
cmd.add(tessPath+"\\tesseract");
}
cmd.add("");
cmd.add(outputFile.getName());
cmd.add(LANG_OPTION);
cmd.add("chi_sim");
//cmd.add("eng");
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());
cmd.set(1, tempImage.getName());
pb.command(cmd);
pb.redirectErrorStream(true);
Process process = pb.start();
//tesseract.exe 1.jpg 1 -l chi_sim
int w = process.waitFor();
//刪除臨時正在工作文件
tempImage.delete();
if(w==0){
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
String str;
while((str = in.readLine())!=null){
strB.append(str).append(EOL);
}
in.close();
}else{
String msg;
switch(w){
case 1:
msg = "Errors accessing files.There may be spaces in your image's filename.";
break;
case 29:
msg = "Cannot recongnize the image or its selected region.";
break;
case 31:
msg = "Unsupported image format.";
break;
default:
msg = "Errors occurred.";
}
tempImage.delete();
throw new RuntimeException(msg);
}
new File(outputFile.getAbsolutePath()+".txt").delete();
return strB.toString();
}
}

import
java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.jdesktop.swingx.util.OS;
public class OCR {
private final String LANG_OPTION = "-l";  //英文字母小寫l，并非數字1
private final String EOL = System.getProperty("line.separator");
private String tessPath = "D:\\Program Files\\Tesseract-OCR";
//private String tessPath = new File("tesseract").getAbsolutePath();
public String recognizeText(File imageFile,String imageFormat)throws
Exception{
File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
File outputFile = new File(imageFile.getParentFile(),"output");
StringBuffer strB = new StringBuffer();
List<String> cmd = new ArrayList<String>();
if(OS.isWindowsXP()){
cmd.add(tessPath+"\\tesseract");
}else if(OS.isLinux()){
cmd.add("tesseract");
}else{
cmd.add(tessPath+"\\tesseract");
}
cmd.add("");
cmd.add(outputFile.getName());
cmd.add(LANG_OPTION);
cmd.add("chi_sim");
//cmd.add("eng");
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());
cmd.set(1, tempImage.getName());
pb.command(cmd);
pb.redirectErrorStream(true);
Process process = pb.start();
//tesseract.exe 1.jpg 1 -l chi_sim
int w = process.waitFor();
//刪除臨時正在工作文件
tempImage.delete();
if(w==0){
BufferedReader in = new BufferedReader(new InputStreamReader(new
FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
String str;
while((str = in.readLine())!=null){
strB.append(str).append(EOL);
}
in.close();
}else{
String msg;
switch(w){
case 1:
msg = "Errors accessing files.There may be spaces in your image's
filename.";
break;
case 29:
msg = "Cannot recongnize the image or its selected region.";
break;
case 31:
msg = "Unsupported image format.";
break;
default:
msg = "Errors occurred.";
}
tempImage.delete();
throw new RuntimeException(msg);
}
new File(outputFile.getAbsolutePath()+".txt").delete();
return strB.toString();
}
}

view plain copy to clipboard print ?

import java.io.File;
import java.io.IOException;
public class TestOCR {
/**
* @param args
*/
public static void main(String[] args) {
String path = "d:\\test\\chi.jpg";
try {
String valCode = new OCR().recognizeText(new File(path), "jpg");
System.out.println(valCode);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}

通過本人的測試對于中文的識別雖然不是很完美，至少其可支持了，但最大的缺點就是速度慢。中文本來就很復雜，而且其語言包就達到50多M，和英文語言包比起來真是..............

測試圖片，可右擊“圖片另存為”

解析輸出結果：

一、引孟4
1. 1 從體驗經濟到體驗設計駟
隨著社會生產力發展水平的提高和人類需求層次的升級, 體驗經濟也就成
為了經濟發展的必然趨勢。體驗經濟日漸顯現, 出現了服務于它的體驗設計。、
設計是創新的重要組成部分。茌強調目主創新的六環i競下, 申國的企業應
該兗分關注體驗設計的新趨勢‘。體驗設計的理論正茌成為現代企業開發產品和
服務頂目的重要依據。現階段, IT 領域很早就注意到了這一點, 百度、騰訊、
支付寶、阿里巴巴等著屬設有專門的用戶體驗部, 為其產品和服務增加附加價值,
也更六程度她讓用戶滿意, 最終荻得了最佳企業效益。、
同時7 隨看現代產品設計思想的成熟, 產品設計也越來越聚焦于人本身一
7人的存茌, 人的需要7 持別是人的情感需要。設計與人, 人與設計, 設計是
否可以有長遠意義, 是否可以印證人的真買存茌, 是否可以幫助人們理解目己,
認識世界。這個問題己偏同于哲學, 但卻確買是設計這種文化形式的內茌訴求。
越來越多的產品遍過設計, 茌與人交互的過程申7 使人產生愉悅的體驗, 并茌
這個體驗的后期, 讓人產生反思, 遍過反思得以認識自己7 發展自己。找想這
點是設計成為一種優勢文化, 而所要肩負的必要責任。 ~

測試中發現的幾個注意點：

1、若是一份英文文檔其對英文字母o絕大部分會識別為數字0。所以若是英文和數字的文檔，最好不要加入中文語言包，而是引入eng.traineddata語言包到D:\Program Files\Tesseract-OCR\tessdata目錄下。

看到OCR 類31-32行代碼

cmd.add("chi_sim");
//cmd.add("eng");

去掉 //cmd.add("eng");前的注釋，但記得在cmd.add("chi_sim");前加上注釋哦，不然你就看不到效果了哦。

2、測試中還發現一個問題，有時候在目錄下已經生成臨時文件并且識別出的文字寫入到output.txt,但是在int w = process.waitFor();則阻塞了停止運行再也沒有反應了，以致控制臺始終沒有打印出文字。

解析（參考）：剛開始想到直接去掉這個語句算了，但是運行的時候會報運行錯誤。最后在 http://www.cnblogs.com/xxpal/articles/824963.html看到下面一段文字說明：在 Windows平臺上，運行被調用程序的DOS窗口在程序執行完畢后往往并不會自動關閉，從而導致Java應用程序阻塞在waitfor()語句。導致該現象的一個可能的原因是，該可執行程序的標準輸出比較多，而運行窗口的標準輸出緩沖區不夠大。解決的辦法是，利用Java中Process類提供的方法讓 Java虛擬機截獲被調用程序的DOS運行窗口的標準輸出，在waitfor()命令之前讀出窗口的標準輸出緩沖區中的內容。

解決辦法：在int w = process.waitFor();代碼行前面加上

      String s;
      BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(process.getInputStream()));
      while((s=bufferedReader.readLine()) != null);

int w = process.waitFor();

再次運行試試看吧。

posted on 2011-03-22 21:47 SIMONE 閱讀(46169) 評論(15) 編輯收藏

常用鏈接

留言簿(46)

隨筆分類(476)

隨筆檔案(495)

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理