DS-530自炊。書籍論文OCR処理と画質設定と531との違い

本サイトで紹介している商品・サービス等の外部リンクには、プロモーションが含まれる場合があります。

家電・サービス等

こんにちは。

以前、ScanSnap s1500が寿命になり、富士通、エプソン、キヤノン3社で比較し、エプソンのDS-531を購入することに決めた、という記事を紹介しました。

↓当該記事

ただ、いざEPSON購入する寸前、フリーマーケットで状態のいい、前世代機種DS-530が安く見つけられたので、530を買いました。

自炊は、漫画、雑誌、論文、書籍さまざまです。

それぞれ色んな設定が必要ですが、まずは…

ながてぃ

私は色んな本を自炊しますが、今回は特に仕事で使うことが多い、

論文や書籍の「表紙だけカラー」「中身は白黒」で読み取り、

文字認識のOCRソフト処理をかける、

こういった条件で、現在試している結果をご紹介します。

DS-531と530は、紙送り機能の事故防止機能向上はありますが、

画質については全く同じだそうなので、どちらを使っても設定は共通の考え方でいいはずです。

暫定結論:カラー300dpi,モノクロ400dpi

この設定にしている理由
  1. 拡大印刷等しなければ、カラーは300dpi以上の品質に大差なし(複数ブログ巡回からの暫定結論)
  2. 論文や書籍等は、検索をかけるためにOCR処理がしたい(本文のモノクロ資料)
  3. OCR処理をするには、印刷会社、エプソン公式情報、複数ブログ等巡回結果、「300dpiで十分」という意見と、「400はないと文字認識エラー率やや高い」意見が散見する。
  4. OCR処理の成功率という観点では、それ以上に画質を上げてもほぼ頭打ちというのが共通意見としてよくみられる。(500も600も画質を上げすぎるのは容量アップの割に成功率の上がり方が微妙で、コスパが悪い)
  5. 大量にデータを保管する上、リアル本棚の限界から、紙で本をあまり残せない→スキャン後、本は処分しないといけない。
  6. 意見が分かれる300と400について、上記事情から、スキャンし直しがしづらいので、400
  7. ちなみに、400ページほどの書籍のモノクロスキャンでは、300dpiと400の容量差は、約10MBでした。

こういった理由から、この暫定結論にしました。

ながてぃ

エプソンは、機械の限界以内なら、任意に自由に画質設定ができるので、かえって迷いました。

うれしい悲鳴というやつかな。

データ容量の節約という意味では、300dpiにすればいいのですが、紙の本を手放した後に、300dpiで不満が出た場合、悲しみを背負うだろうということから400です。

後から画質を上げることはできませんが、データ圧縮などで画質を下げる方はできそうですし、ね。

ながてぃ

ここで判断をいつまでも迷っていると、自炊により行いたいことが停滞してしまいますので、

えいや!と決めました。

スキャンは「Document Capture Pro」を使用

エプソンのスキャナーを初めて買って、いきなり迷ったのはスキャンに使うソフトです。

なんと、「EPSON SCAN」と、「Document Capture Pro」の二種類が、公式で用意されているのです。

微妙に用途は違いますが、どちらからも画質設定ができます。

Document Capture Proを使うことに決めた主たる理由
  1. どちらも同じ画質設定ができる
  2. どちらも任意の画質設定を保存しておける
  3. Document Capture Proは、データを分割したり、読み取り設定を途中で変えてページ挿入できたり、クラウド等保存先を細かく指定できる
  4. Document Capture Proは、保存した設定が画像イメージで表示されるので、個人的に使いやすく感じた
  5. 画質設定についてはやれることが同じで、Document Capture Proの方が機能が多い

ようするに理由としては「4」「5」に集約されます。

ながてぃ

Document Capture Proで画質の詳細設定をしようとすると、

自動的にEPSON SCANが開かれます。

なので、私の理解としては、多機能なDocument Capture Proの中の画質設定機能がEPSON SCANといった感じです。

だったら、Document Capture Proを主にいじっていればいいかな。

Document Capture Proで画質設定をいじると、自動的にEPSON SCANが呼び出されます

スキャン設定(ジョブ)の保存

上記画面から、詳細に読み取り設定を行います。

最後に、ジョブのイメージ画像を選択します。

ここが、EPSON SCANにはなく、かつ見やすい(主観)と感じられる機能の一つです。

ながてぃ

一度設定を保存しておけば、以降はジョブの画像をクリックするだけで、その設定でスキャンされます。便利。

異なるスキャン設定を組み合わせる

例として、表紙のみカラー(300dpi)、中身はモノクロ(400dpi)の設定を組み合わせて、一冊の本をPDFにしました。

表紙を読み取る カラー300dpi

前述の、保存したカラースキャンをまず行います。

カラーで読み取りたい原稿のスキャンが終わったら、「終了」を押します。

つい、「追加」を押したくなりますが、追加を押すと、「同じ設定でスキャンを続ける」意味のようですので、今回やりたいこととは異なります。

スキャン結果の編集画面で、「追加」を押す

スキャン設定をモノクロ(400dpi)にして、スキャンする

こうすることで、読み取り設定が異なるデータを、一つのPDFとしてまとめられます。

ながてぃ

カラーとモノクロの自動判別自体は、最初から選択できます。

が、私は、「カラーは300dpi」「モノクロは400dpi」で読み込みたかったので、自動判別機能は使わず、この方法を選びました。

万が一、自動判別で、モノクロページをカラー認識されて、無駄にデータ容量上がってもなんか悔しいですし。

モノクロ300dpiと400dpiの読み取り速度とデータ容量について

見た目の美しさは、私の目では300も十分読みやすいと感じました。

ここは、主観によるところが多いので、割愛させていただきます。

実際に数字で比較できる、読み取り速度とデータ容量について、一例を紹介します。

読み取り速度

カタログスペックは公式に明記されております。

では実際のところ、体感速度はどんな感じなのよ、といった例として、実際に読み取ってみました。

以下動画をご覧ください。

左が、300dpi

右が、400dpi

の読み取り速度例です。

300dpiモノクロの読み取り速度例
400dpiモノクロの読み取り速度例

データ容量

条件
  1. 約400ページの書籍
  2. モノクロスキャン
  3. 300dpiと、400dpiで同じ書籍をスキャン
ながてぃ

300dpiは17.9MB

400dpiは27.9MB

でした。

使用しているOCRソフト:読取革命

私は、スキャナーに付属しているフリーOCR機能ではなく、「読取革命」というソフトを購入して、文字認識をかけています。

これは、我が家の初代スキャナー ScanSnap s1500を使っていた時からずっと使っています。

フリー機能と比べ、縦書きも横書きも文字認識率が結構高く、気に入っています。

ただ、凝ったフォントだったり、絵や図の中にイラストのように入っている文字は認識が苦手なようです。

↓OCR処理をかけて電子書籍を検索する例が含まれた過去記事はこちら↓

私が持っているのはバージョンが古いものですが、それでも優秀だと感じます。

DS-531とDS-530の違いについて

DS-531(2020年製)の一世代前の機種がDS-530(2016年製)です。

説明書を無料で管理・登録できるアプリ「トリセツ」を使って調べてみました。

DS-531にあって、530に無い主要機能
  • ホチキス(ステープラー)の針が刺さりっぱなしの原稿を感知して停止する安全機能
  • 読み取りガラスに糊などが付いて汚れていると教えてくれる検知機能

前者は「原稿保護機能」。

後者は「ガラス汚れ検知」。

と、それぞれ呼ぶそうです。

ながてぃ

調べた範囲では、画質の設定や重層検知機能(超音波センサー)、片面読み取りと両面読み取り、カラー、白黒、グレースケールの切り替え、等、スキャンに必要な基本機能は、どちらも同じ、でした。

最重要な機能はしっかり引き継ぎつつ、

より事故少なく安全な機能が追加されたのが、531ということのようです。

おわりに

本日は、新しく我が家にお迎えしたスキャナー、DS-530の設定を行いました。

漫画、雑誌、本などなど色々な紙資料があり、それぞれに適した設定があります。

今回は、その中でも、「論文や文字主体のモノクロ書籍」をスキャンし、「文字認識ソフトにかける」

ことを念頭に行った設定をご紹介しました。

最新機種のDS-531と、画質については同じだそうですので、どちらの機種をお持ちの場合も、同様のことができるはずです。

ここまでご覧いただき、ありがとうございます。

このブログが、あなたがあなたらしく生きるための土台づくりの、何かのヒントになれば幸いです。

関連記事

⭐️こちらをクリックいただけると、当ブログの自炊タグ記事一覧がご覧いただけます

↓エプソン、キヤノン、富士通のスキャナー比較記事

コメント

  1. ゆずっこ より:

    このブログをみてDS-530と読取革命(どちらも未購入)の併用を検討していますが、もしよろしければ教えていただきたいことがあります。
    OCR処理はスキャン時に同時にできるよう設定できますか?それとも一度スキャンしたデータを手動で読取革命で処理している感じですか?

    • naga-t より:

      ゆずっこさま
      ご連絡ありがとうございます。
      このブログから、ご購入のご検討をいただいているとのことで、
      大変嬉しく思います。
      530は旧型ですが、今のところ快適に使用しています。
      531は、質の良い530中古と出会わなければ、直前まで通販サイトで購入寸前でした(笑)。
      本の裁断は抵抗がありましたが、
      1つのタブレット等に自分の本棚を集約できるのはとても助かります。

      さて、お問合せの件です。
      読み取り革命でのOCRは、手動で都度詳細に設定する方法と、指定したフォルダーに格納したファイルを自動的にOCR処理かける、
      「フォルダーウォッチャー」という機能があります。
      私は、本を大量にOCRにかける都合で、
      フォルダーウォッチャーの方をメインに使っています。
      公式ページのこちら、ページの真ん中あたりに「フォルダーウォッチャー」の説明も載っていますので、
      ご参考いただけましたら幸いです。
      https://www.sourcenext.com/product/yomitorikakumei/

      • ゆずっこ より:

        なるほど。読取革命の機能としてそのような便利なものがあるのですね!
        丁寧に教えていただいてありがとうございました。安心して購入できそうです♪

        • naga-t より:

          ゆずっこ様

          ご参考いただけましたら幸いです。
          また何かありましたら、お気軽にコメントいただけましたら幸いです。

          • ゆずっこ より:

            度々失礼します🙇
            DS-531を購入し、試しているのですが、元々付いているdocument capture proにもOCR機能がついているようで、ここに来て読取革命の購入を迷っています。読取革命とどの程度正確さに差があるのか調べようと思ったのですが、比較してあるサイトもなく、もし差し支えなければ、ながてぃさんの主観で構わないのでどちらの方が優れているか教えていただけないでしょうか?🙏
            私としてはほとんど差がないようであればお金も設定の手間もありますので、このままdocument capture proで運用してもいいかなと考えていますが、少し(識字率1%程度)でも読取革命が優れているのであれば購入しようと考えています。

          • naga-t より:

            ゆずっこ様

            ご連絡ありがとうございます。
            早速DS−531をご使用になられているということで、嬉しい限りです。

            さて、OCR処理の件、とても大切なことでございます。

            私の主観で構わない、というお言葉に甘えさせていただきます。
            正直に申し上げると、わかりません。
            数回無料OCRを試したり、読取革命をかけたものとざっくり比較してみたことはありますが、
            縦書きであったり、多少斜めになっていたり微妙に汚れ気味な原稿も認識してくれる率が高い気がするなあと、数値など根拠なく主観で感じたので、以降は読取革命を使っています。

            あくまで私の主観を多分に含みますが、私が無料の付属ソフトでなく読取革命を購入した主な理由は、以下のとおりです。
            ①わざわざ専用でOCRソフトが開発されていること
            ②あくまでスキャナーのメイン機能はスキャンであり、付属はあくまでおまけだろうと考えたこと(主観)。
            ③読取革命は、比較的他社よりリーズナブル、かつサブスクではなく買い切りであること
            ④公式によると、取り消し線付きの文字もある程度認識してくれること、英語と日本語のそれぞれ言語解析辞書を搭載して、専門書や論文の文字認識に力を入れている旨公式明記されていること。
            ⑤いずれのOCR処理ソフトも完璧ではないこと
            ⑥不具合箇所は、書籍を自分で読み込みながら、検索性を高めるために、閲覧アプリ(iPadのgoodnotes5)にて、自作アウトラインをつけたり、手書きで検索率を高める工夫などをすれば良いと考えたこと
             →こちらは関連別記事でも軽く触れておりますので、よければご覧ください。
            ↓手前味噌ですが、PDF閲覧に使っているアプリの個人的な活用方法や考え方記事です↓
            https://www.naga-t.com/love-books-with-goodnotes/

            等が挙げられます。

            ゆずっこ様のような悩みは、誰もが感じることかと思いますので、
            読取革命などの無料体験版などあればいいなあ、と常々思うのですが…。
            2020年ごろまでは無料体験版が配布されていたようですが、今現在は、私の調べた範囲では無いようです。

            あくまでここからは、私の一案ですので、
            ご採用いただくかどうかはゆずっこ様次第となりますが、
            例えば以下の運用はいかがでしょうか。

            ①定期的に、スキャナーのお手入れを説明書の通り行う(読取原稿が無駄に汚くなったりしないように)
            ②スキャナー読み込み時の傾き補正機能など活用して、あまり斜めに原稿が読み取られないようにする
            ③dpi設定で、あまりケチらず、例えばモノクロならば400dpiにしておく

            ①〜③は、いずれのOCRソフトであっても、エラー率を下げるための、人間ができる工夫だと思います。

            その上で、
            ④スキャンした元データは、バックアップとして保存しておく(外付けHDDなど)
            ⑤当面は、付属の無料OCR処理で運用していく
            ⑥付属OCR機能でどうしても不満が出た際に、改めて有料の専用ソフト購入をご検討いただく
            ⑦その際、バックアップでとっておいた元データさえあれば、後から購入したOCRソフトが使用できるはず

            これで、万が一データが飛んだ時の備え&将来的にOCR処理ソフト購入を検討した際にも、
            やり直せるのではないかと考えたのですが、いかがでしょうか。

  2. ゆずっこ より:

    気軽に質問しただけなのに、このように丁寧にご回答いただき、ありがとうございますm(_ _)mなんだか申し訳ないぐらいです。
    当方専門書や論文の取り込みも多くなると思いますので、読取革命にそのような記載があるのは魅力的に感じました。
    ただアドバイスいただいたとおり、はじめは付属の機能を利用し、不満が出た際に購入を検討するのでもよいのかなと考えています。
    アドバイスに対して対価が支払えないのがなんだか申し訳ないぐらいですが、これからも応援しています😄
    ありがとうございました!

    • naga-t より:

      ゆずっこ様
      とても嬉しいコメント、何よりの対価でございます。

      私自身がスキャナー探しや設定等々で悩んだので、
      ゆずっこ様のように、近い悩みを持った方の何かの役に立てばという願いでおります。
      きっと、ゆずっこ様とのやりとりも、
      未来に当記事をご覧いただく方の参考になるのではと感じています。

      ご質問いただいて、「ああそうそうそこも悩んだのよ私!!」と、
      ものすごくテンションがあがり、楽しくコメントさせていただきました。
      熱が空回りしていなければいいのですが…。

      当ブログは、自炊専門ではなく、思ったこと感じたことを気の向くまま書く、
      いわゆる雑記ブログに該当するかと思いますので、
      あまりご関心の的を得た記事は少ないかもしれませんが…。
      もし、気が向いた時は、
      ご覧いただけたら幸いです。