PDF/Officeファイルから検索用文字列とサムネイルを抽出(ShareDoc連携)
PDF/Officeファイルから検索用文字列とサムネイルを抽出(ShareDoc連携)
事例のご紹介 (2020年)
案件 | ETT Server for ShareDoc |
---|---|
動作環境 | Apache+PHP+SQLite(Linux) |
PDF、Word/Excel/PoerPointの中身を検索したい、という要望。ShareDocにアップされた添付ファイルがPDF/Officeファイルの場合、中身の文字列部分を抽出して全文検索の対象にするため、文字列を抽出、開いた時のイメージをサムネイルとして保存。この処理をShareDocサーバにさせると重くなるため、別サーバを立てることにした。名称はExtract Text and Thumbnail Serverを略して「ETT Server」とした。
Officeファイルは開いた時のイメージをサムネイル化したが、PDFは最初のページだけだと内容がわかりづらいので、最初から4ページをサムネイル化して一つの画像に合成。動画はいくつかのカットをサムネイル化して合成。画像とテキストはOfficeファイルと同様に一つのサムネイルとした。サムネイルの抽出はチューニング可能。