水戸市大場町・島地区農地・水・環境保全会便り

ほぼ毎日更新！！水戸市大場町島地区では2009年度から参加している農地水から引続いて、2015年度からは地域資源である農地の維持を目的とする農地維持支払、地域資源の質的向上を目的とする資源向上支払、そして地域資源の長寿命化、これらからなる多面的機能支払に取り組んでいます。この活動の様子や「農業」と「農業機械」、「自然」、近所の「島営農生産組合」について素人の管理人がレポートします。

2015年5月16日2015年5月16日投稿者: nora

朝から全損な感じ

Aさんに貸してもらっている昔の農業機械のカタログなどの資料の中に価格表があります。これをスキャンして、テキストデータにしてリンクをつけたらおもしろいかなあ・・・なんて思って始めたのですが、ヘンなところでつまずいて全損な感じです。

これが昭和53年8月1日現在の（といってももう過去になっていますが）クボタの価格表。タテ1000ピクセルで201KBもあります。しかも、細かい文字は読みにくいかなあ・・・

元々はテキストデータなわけですから実際は物凄く軽いはずです。これをパッと読み込んで文字に変換してくれるようなタダのアプリかなんかあったらラクなんですけど・・・

MACでフリーの文字認識はないかなあ・・・と、いろいろ調べてみると（少数派なんで選択肢が少ないです）、アクロバットプロでできそうです。これなら、僕が買ったソフトにオマケで付いています。

スキャナーでスキャンしたものをpdfに変換してアクロバットプロで開きます。

目的は軽くすることですから、スキャンされたpdfを最適化ってのやってみようかな。

どうもこのコマンドは傾きを取ったり、コントラストを上げて読みやすくするって趣旨みたい。

いよいよ文字認識をさせてみます。OCRとはウィキペディアによれば、光学文字認識（こうがくもじにんしき、英: optical character recognition）ということらしく、画像をテキスト認識する技術らしいです。OCRテキスト認識→OCRを使用してテキスト認識・・・を選びます。

色々設定がでてきますが・・・clear scanとは認識したテキストを画像と置き換えてくれることのようです。こうしないとサイズが小さくなりません。ダウンサンプリングも同じで、最小にしてみます。

できたっ！

できあがった価格表（pdfファイル）は184KBと小さく、画像ファイルよりも読みやすくなっています。

でも、やりたいのは本文中で表にしてリンクをつけることなんだよなあ・・・できるかどうかわからないけど、テキストを取出してExcelで表を作り直してみることにしました。

「ディーゼノレ」

やりはじめてみると・・・

見出しクラスの大きな文字はバッチリなんですが、小さな文字になると「B」と「8」の区別がついていなかったり、Ⓓを＠と間違えていたり、ディーゼルを「ディーゼノレ」や「ディーゼノ(」と間違ったり、そもそも読んでいなかったり・・・

う〜〜〜〜ん・・・・

結論

初めから全部テキストで打ったほうが速い。

朝から膨大に時間をかけた作業、まったくムダでした。

ラクしようとしちゃいけない！　ひとつの成功の影には膨大な数の失敗があるのだ！っていうお話でした（そもそも成功があるのか？という話は置いておきます）。ちゃんちゃん。

上の記事とゆるく関連しているほかの記事:

コメントを残す

%d人のブロガーが「いいね」をつけました。