国立国会図書館デジタルライブラリーカフェ「NDLOCRを使ってみた―全文テキスト活用のススメ―」 (2023/1/18)
国立国会図書館は、「ビジョン2021-2025 -国立国会図書館のデジタルシフト-」を掲げて、2021年から2025年までの5年間に100万冊以上の所蔵資料のデジタル化を進めるとともに、OCR(光学的文字認識)による全文テキスト化も行い、検索や機械学習に活かせる基盤データとすることを目指しています。
その取組の中で、デジタル化資料の全文テキストデータ作成のため、令和3年度OCR処理プログラム研究開発において、当館は機械学習技術を用いたOCR処理プログラム「NDLOCR」を開発しました。NDLOCRはオープンソースソフトウェアとしてCC BY 4.0で公開されており、自由な利用が可能になっています。
本イベントでは、実際の研究の場においてNDLOCRが活用されている事例について話題提供を受け、更なる活用の可能性について参加者とディスカッションを行います。
■日時:2023年1月18日(水) 15時00分~16時45分
■会場:オンライン開催(Zoomウェビナー)
■詳細: NDLラボのイベントページを参照ください。
https://lab.ndl.go.jp/event/digicafe2022/
■申込方法: 次のページからお申し込みください。
https://us06web.zoom.us/webinar/register/WN_TNtOhNEyTrGpfCBZmIZa7w
■プログラム
第1部 話題提供
・「NDLOCRと公開中のオープンデータセットの紹介」
青池亨(電子情報企画課次世代システム開発研究室開発研究係員)
・「東京大学史料編纂所出版物を用いたNDLOCRの応用事例紹介」
中村覚(東京大学史料編纂所助教、当館非常勤調査員)
・「OCRテキスト横断検索システムへの期待と今後の幕末維新史研究」
箱石大(東京大学史料編纂所教授)
第2部 カフェタイム
国内の多様なデジタル化資料のテキスト化の推進に向けて、NDLOCR活用の可能性や、テキストデータ活用の意義など、NDLOCRとテキストデータの活用をテーマに、第1部の登壇者と参加者とで気軽にディスカッションできる時間とします。
■定員
なし。ただし、ディスカッション参加者は20名(先着順)。
■参加費
無料