將圖片中的文字提取出來、將PDF文件轉換成word文檔以及將圖片中的網址和文字去掉的方法
最近這段時間,由于要編寫一文檔,我搜集了相關的內容。需要用到的內容在pdf文檔中,因此,尋找出將pdf文件轉換成word的文檔或者是將pdf中的文字、圖片提取出來是關鍵。在此,我將所用到的轉換軟件以及相關的要點寫下來,方便有此需要的各位查閱。
將pdf轉換成word文檔中,我分別試用了兩個軟件進行轉換:(1)Adobe Acrobat 7.0 Professional(2)PDF2Word (pdf輸出word)綠色漢化版 V3.0。Adobe Acrobat 7.0 用法為,用Acrobat 7.0打開pdf文件,然后打開“文件”菜單點擊“另存為”然后將保存類型改為Microsoft word文檔,即可將pdf轉換為word文檔,不過此種方法比PDF2Word 3.0的轉換效果差,我試驗了轉換幾篇pdf文檔,PDF2Word 3.0的轉換效果要比Acrobat 7.0好,因此建議用PDF2Word 3.0來進行轉換。PDF2Word 3.0下載可點擊其超鏈接進行下載。
將pdf轉換成word文檔容易,但有種情況,將pdf文件轉換成word文檔后,在word文檔種,里邊的文字不能編輯,文字都是由一張張圖片組成的,碰到這種情況,難道我們只能一個一個的看著圖片將文字錄入文檔中再編輯嗎?我找了幾個軟件來將圖片中的文字,提取出來保存到word文檔中,易于我們進行編輯、排版等操作。其中我試用感覺 用Office 2003提取圖片中的文字,準確度較高。方法如下:
(1) 我們需要安裝“Microsoft Office Document Imaging”的組件,點“開始→程序”,在 “Microsoft Office 工具” 里點“ Microsoft Office Document Imaging” 即可安裝運行。
(2) 打開帶有文字的圖片或電子書籍等,找到你希望提取的頁面,按下鍵盤上的打印屏幕鍵(PrintScreen)進行屏幕取圖。
(3)打開Microsoft Office Word 2003 ,將剛才的屏幕截圖粘貼進去;點擊“文件”菜單中的“打印”,在安裝Microsoft Office Document Imaging組件后,系統會自動安裝一個名為“Microsoft Office Document Imaging Writer”的打印機。 “Microsoft Office Document Imaging Writer”打印機,其他選項無須額外設置,點擊“確定”按鈕后,設定好文件輸出的路徑及文件名(缺省使用源文件名),然后很快就可以自動生成一個MDI格式的文檔了。
打開剛才保存的MDI類型文件,根據你的需要用鼠標選擇文字內容(被選中的內容在紅色的框內),然后單擊鼠標右鍵,在彈出的快捷菜單中選擇“將文本發送到Word”,即可將圖片內容自動轉換為一個新的Word文檔,然后你就可以在Word文檔中隨心所欲地進行編輯這段文字了。 或者 打開MDI文檔,選擇“工具”菜單,選中“將文本發送到word”,然后一直按確定就可以了。完成了將圖片中的文字作為文本發送到word中后,我們就可以在word中對該文檔進行編輯、排版等操作了。
將圖片中的文字提取出來,我試用了其他OCR文字識別軟件以及用上面這種方法來操作,提取出的文字都有些錯別字或者是出現其他字符等。相對來說對于,用“Microsoft Office Document Imaging”組件來提取的方法,提取出的文字正確率較高。
將圖片中的網址和文字去掉的方法
可以用圖象處理軟件,比如PS,最好不要使用橡皮工具,會把想要的的背景色也給涂掉的,
建議使用圖章工具,慢工出細活,只能一點一點地修改了。
若其他朋友有更好的方法,請給予告知,大家相互學習,共同進步。
|
|