中国体彩网电脑版|中国体彩网电脑官方版
你好,游客 登錄 注冊 搜索

背景:
閱讀內容

三步法“攫取”文本信息

[日期:2018-03-08] 來源:  作者:山東 楊鑫芳 [字體: ]

 

  文本信息的獲取可以說是收集各種多媒體信息操作中最為容易的~種,在很多情況下都是通過直接拖動選中后復制、粘貼即可實現。但是,當我們遇到那些做了防下載處理的網頁時(不響應鼠標的拖動操作),或是防二次編輯的PDF文檔,甚至是有些網頁一拖動選中就會出現各種隨機干擾碼……此時,推薦大家試一下三步法“攫取”文本信息,只須使用電腦上所安裝的常規軟件即可輕松實現。
  
  【第一步】用QQ進行屏幕截圖以某PDF文檔為例,在已經運行了騰訊QQ的前提下,首先直接按CTRl-Alt-A組合鍵在打開的PDF文檔頁面中進行鼠標拖動來屏幕截圖——使用組合鍵的好處是不必打開任何一個聊天窗口且操作十分快捷;調節好待截取的屏幕區域后,再點擊右下角的“完成”按鈕,這樣就將該區域圖像內容進行了復制操作。
  
  【第二步】用OneNote的“復制圖片中的文本”進行文本識別運行OfiICe組件中的OneN6ce,直接按Ctrl-V組合鍵進行粘貼操作,界面中就會出現上一步使用QQ屏幕截圖功能復制出來的PDF文檔圖片內容;接著,在該圖片上點擊鼠標右鍵選擇“復制圖片中的文本”項,此時并未有任何操作提示但已經初步“攫取”出了文本信息。
  
  【第三步】用Word“替換為”整理格式新建一個Word文檔,仍然是按Ctrl-V組合鍵進行粘貼操作,之前在PDF中所看到的文本信息立刻就會出現(OneNote的文本識別率是相當高的),但還有兩個小問題需要解決:~是相鄰文字間都有個半角空格,二是幾乎每一行信息最后都有垂直向下的軟回車箭頭和硬回車,這都要通過Word“替換為”功能來整理。
  
  1.處理半角空格首先,選中任意兩個文字間的空格并按Ctrl-C組合鍵復制;然后,再按Ctrl-H組合鍵彈出“查找和替換”一“替換”對話框:在“查找內容”處按Ctrl-V組合鍵將剛剛復制的半角空格進行粘貼,下方的“替換為”處保持不變;最后,點擊“全部替換”按鈕,Word就會提示“全部完成。完成331處替換。”,點擊“確定”按鈕將它關閉,我們就得到了一行行整齊排列但行末仍帶有軟回車的文本信息。
  
  2.處理軟回車和硬回車仍是按Ctrl-H組合鍵彈出“查找和替換”一“替換”對話框,此時就不能使用先復制再粘貼半角空格的方法來處理軟回車了,而是應該在“查找內容”處輸入“^1”(保證是英文輸入狀態),第一個符號是Shift+數字6,第二個是小寫字母1;再點擊“全部替換”按鈕,Word就會提示“全部完成。完成13處替換。”,點擊“確定”按鈕將它關閉;接著幾乎是重復這樣的操作,只不過將“^l”更換為“^p”(小寫字母p),硬回車也可快速被清除掉。
  
  經過以上三步攫取文本信息的操作,我們基本上就得到了還算干凈的文本信息,最后只須對照原信息進行一些簡單的修改和調節操作即可,大家不妨一試。

     往下看有更多相關資料

推薦文章 收藏 推薦 打印 | 整理:嘉嘉寶寶 | 閱讀:
查看相關資料      
專題文章
熱門評論

中国体彩网电脑版