朝から全損な感じ

Aさんに貸してもらっている昔の農業機械のカタログなどの資料の中に価格表があります。これをスキャンして、テキストデータにしてリンクをつけたらおもしろいかなあ・・・なんて思って始めたのですが、ヘンなところでつまずいて全損な感じです。

これが昭和53年8月1日現在の(といってももう過去になっていますが)クボタの価格表。タテ1000ピクセルで201KBもあります。しかも、細かい文字は読みにくいかなあ・・・
これが昭和53年8月1日現在の(といってももう過去になっていますが)クボタの価格表。タテ1000ピクセルで201KBもあります。しかも、細かい文字は読みにくいかなあ・・・

元々はテキストデータなわけですから実際は物凄く軽いはずです。これをパッと読み込んで文字に変換してくれるようなタダのアプリかなんかあったらラクなんですけど・・・

MACでフリーの文字認識はないかなあ・・・と、いろいろ調べてみると(少数派なんで選択肢が少ないです)、アクロバットプロでできそうです。これなら、僕が買ったソフトにオマケで付いています。

スキャナーでスキャンしたものをpdfに変換してアクロバットプロで開きます。
スキャナーでスキャンしたものをpdfに変換してアクロバットプロで開きます。
目的は軽くすることですから、スキャンされたpdfを最適化ってのやってみようかな。
目的は軽くすることですから、スキャンされたpdfを最適化ってのやってみようかな。
どうもこのコマンドは傾きを取ったり、コントラストを上げて読みやすくするって趣旨みたい。
どうもこのコマンドは傾きを取ったり、コントラストを上げて読みやすくするって趣旨みたい。

いよいよ文字認識をさせてみます。OCRとはウィキペディアによれば、光学文字認識(こうがくもじにんしき、英: optical character recognition)ということらしく、画像をテキスト認識する技術らしいです。OCRテキスト認識→OCRを使用してテキスト認識・・・を選びます。
いよいよ文字認識をさせてみます。OCRとはウィキペディアによれば、光学文字認識(こうがくもじにんしき、英: optical character recognition)ということらしく、画像をテキスト認識する技術らしいです。OCRテキスト認識→OCRを使用してテキスト認識・・・を選びます。
色々設定がでてきますが・・・clear scanとは認識したテキストを画像と置き換えてくれることのようです。こうしないとサイズが小さくなりません。ダウンサンプリングも同じで、最小にしてみます。
色々設定がでてきますが・・・clear scanとは認識したテキストを画像と置き換えてくれることのようです。こうしないとサイズが小さくなりません。ダウンサンプリングも同じで、最小にしてみます。

できたっ!

できあがった価格表(pdfファイル)は184KBと小さく、画像ファイルよりも読みやすくなっています。

でも、やりたいのは本文中で表にしてリンクをつけることなんだよなあ・・・できるかどうかわからないけど、テキストを取出してExcelで表を作り直してみることにしました。

「ディーゼノレ」

やりはじめてみると・・・
やりはじめてみると・・・

見出しクラスの大きな文字はバッチリなんですが、小さな文字になると「B」と「8」の区別がついていなかったり、Ⓓを@と間違えていたり、ディーゼルを「ディーゼノレ」や「ディーゼノ(」と間違ったり、そもそも読んでいなかったり・・・

う〜〜〜〜ん・・・・

結論

初めから全部テキストで打ったほうが速い。

朝から膨大に時間をかけた作業、まったくムダでした。

ラクしようとしちゃいけない! ひとつの成功の影には膨大な数の失敗があるのだ!っていうお話でした(そもそも成功があるのか?という話は置いておきます)。ちゃんちゃん。

上の記事とゆるく関連しているほかの記事:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

%d人のブロガーが「いいね」をつけました。