無料で日本語・手書き・縦書きもテキスト化できる国立国会図書館のWindows・Mac・Linux向けOCRアプリ「NDLOCR-Lite」 – GIGAZINE

国立国会図書館のNDLラボは、デジタル画像からテキストデータを作成できるOCRアプリ「NDLOCR-Lite」を公開しました。以前に公開していた「NDLOCR」の軽量版を目指して開発されており、一般的なPCでGPUを必要とせず使用可能です。

NDLOCR-Liteの公開について | NDLラボ
https://lab.ndl.go.jp/news/2025/2026-02-24/

GitHub – ndl-lab/ndlocr-lite: NDLOCR‑Lite application repository (including source code)
https://github.com/ndl-lab/ndlocr-lite

NDLOCR-Liteを使用するには配布ページにアクセスし、使用する環境に合わせた最新版を選択してダウンロードします。今回はWindows版を使用します。

ダウンロードしたZIPファイルを展開したら、「ndlocr_lite_gui.exe」を起動。

NDLOCR-Liteが起動しました。

「画像ファイルを処理する」をクリックしてテキストを抽出したい画像を選択します。今回は電子書籍「アニメ監督のお仕事とは？: アニメ業界インタビューまとめ」のキャプチャ画像からテキストを抽出してみます。

画像ファイルを選択して「開く」をクリック。

ファイルのパスが選択されているのを確認したら「出力先を選択する」をクリック。

抽出したテキストファイルなどを保存する出力先フォルダを作成したら「フォルダーの選択」をクリックします。

画像と出力先を選択したら「OCR」をクリックしてテキスト抽出開始。

1.24秒で画像のOCRが完了しました。画面下部にはプレビューが表示されています。

出力先フォルダには、JSON形式、TXT形式、XML形式、TEI形式、プレビュー画像が保存されていました。TXT形式のファイルを開いてみます。

以下のように画像から文字起こしされていました。なお、改行は画像と同じ場所になっています。

元画像(左)と抽出したテキスト(右)を比較すると以下のような感じ。

次に、画像を選択した状態で「Crop＆OCR」をクリック。

読み込んだ画像が表示されるので、画像の上をドラッグして青い四角でテキストを抽出したいエリアを選択します。選択したら「切り抜きOCR」をクリック。

選択部分のテキストが抽出されました。なお、切り抜きOCRのデータはテキストファイル等で保存されません。

また、フォルダ内の画像をまとめて処理することもできます。「フォルダ内の画像を処理する」をクリック。

処理するフォルダを選択して「フォルダーの選択」をクリックします。

「OCR」をクリック。

複数の画像が処理されました。「次の画像」をクリックすることでプレビューを切り替えることができます。

出力先フォルダには複数画像がそれぞれの形式で書き出されていました。

そのほか、画像だけではなく画面上を直接キャプチャしてテキスト化することもできます。「キャプチャモード」をクリック。

画面上の画像等からテキスト化したい部分をドラッグして囲みます。

キャプチャできたら「OCR実行」をクリック。

キャプチャ部分をテキスト化することができました。ただし、一部が途切れていたり向きがズレていたりすると正しくテキスト化されないので注意が必要です。

NDLOCR-Liteの特徴として、NDLOCRと比較してGPU不要で軽量になったことに加えて、NDLOCRが不得意としていた英文や手書き文字等についても実験的に対応しているとのこと。試しに、アメリカ内国歳入庁(IRS)から届いた納税者番号「EIN」の書類を撮影した写真からテキスト抽出してみたところ、英文も問題なくテキスト化できました。

NDLOCR-Liteは、国立国会図書館がCC BY 4.0ライセンスで公開しています。また、GPUを必要とするNDLOCRについても引き続き利用可能です。

GitHub – ndl-lab/ndlocr-lite: NDLOCR‑Lite application repository (including source code)
https://github.com/ndl-lab/ndlocr-lite

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

AIを使ったバイブコーディングで「愛犬にゲームを開発させる」ことに成功 - GIGAZINE 前の記事「2600億円超の仮想通貨がイランに送金された」と報告した従業員をBinanceが解雇 - GIGAZINE 次の記事

関連記事

キーボードを取り外してデュアル有機ELタッチディスプレイに変形するASUSのIntel Core Ultra X9搭載ノートPC「Zenbook DUO UX8407」フォトレビュー

PS5本体に接続しなくてもPS Portalでライブラリー内タイトルを直接プレイできるクラウドストリーミング機能が正式スタート – GIGAZINE

HuaweiのPC向けWindowsライセンスが2025年3月で期限切れに – GIGAZINE

学生ローンの借金がある人は選挙で投票したり政治活動に関わったりする可能性が高い – GIGAZINE

中国の主要AIラボを訪問したアメリカ人研究者が語る「中国AIエコシステム」は欧米のAI研究と何が違うのか？ – GIGAZINE

フードデリバリーサービスのDoorDashが最高時速32kmで注文した料理を配達してくれる自走式ロボット「Dot」を発表 – GIGAZINE