PDF/Officeファイルから検索用文字列とサムネイルを抽出（ShareDoc連携）

事例のご紹介　(2020年)

案件	ETT Server for ShareDoc
動作環境	Apache+PHP+SQLite（Linux）

PDF、Word/Excel/PoerPointの中身を検索したい、という要望。ShareDocにアップされた添付ファイルがPDF/Officeファイルの場合、中身の文字列部分を抽出して全文検索の対象にするため、文字列を抽出、開いた時のイメージをサムネイルとして保存。この処理をShareDocサーバにさせると重くなるため、別サーバを立てることにした。名称はExtract Text and Thumbnail Serverを略して「ETT Server」とした。
Officeファイルは開いた時のイメージをサムネイル化したが、PDFは最初のページだけだと内容がわかりづらいので、最初から４ページをサムネイル化して一つの画像に合成。動画はいくつかのカットをサムネイル化して合成。画像とテキストはOfficeファイルと同様に一つのサムネイルとした。サムネイルの抽出はチューニング可能。

カテゴリー: 事例紹介、Linux、PDF、PHP、Web

タグ: jirei

事例紹介

2020年12月28日

事例紹介

2021年1月15日

PDF/Officeファイルから検索用文字列とサムネイルを抽出（ShareDoc連携）

バーコードリーダ、レシートプリンタ、カスタマーディスプレイ、ドロワ

出願工程にかかる費用と期限日を管理する知的財産管理システム