公開日 · 読了時間 1 分
画質を落とさずにPDFを圧縮する方法
PDFファイルを小さくするための実用的で率直なガイド。実際に容量を取っているのは何か、どの圧縮ツマミが重要か、そして文字をくっきり保ち署名の法的有効性を維持する方法を解説します。
「送信」を押すと、メールが弾かれる。理由はいつも同じです。PDFが大きすぎる。添付の上限は25 MB、ファイルは38 MB、会議までは10分。心当たりはありませんか? PDFを扱う人なら誰もが経験する瞬間で、誰もが最初に見つけた「PDF オンライン 圧縮」のリンクをクリックし、大事なものが壊れないことを祈って送信します。
本記事はそれに対する長めの答えです。何が実際にPDFを大きくしているのか、ツールに表示される「圧縮レベル」が裏で何をしているのか、そしてどれをいつ安全に使えるのかを解説します。読み終える頃には、PDFを見ただけで大体どれくらい小さくできるかを予想し、運任せにせず適切な手段を選べるようになるはずです。
そもそもなぜPDFはここまで大きくなるのか
PDFは本質的にコンテナです。中にはテキストストリーム、ベクターグラフィック、埋め込みフォント、ラスター画像、フォームフィールド、注釈、JavaScript、添付ファイル、メタデータが入っています。PDFが巨大だと文句を言われる場合、犯人はテキストではほぼありません。プレーンテキストは驚くほど小さく、長編小説1冊で数百キロバイトにしかなりません。容量の膨張は3つの場所から来ます。
1つ目は埋め込まれたラスター画像、特にスキャンです。300 DPIのフルページのカラースキャン1枚は約2,500万画素で、無圧縮なら約75 MB、JPEGで圧縮しても1ページ2~4 MBになります。30ページの文書なら100 MBのPDFになります。2つ目は埋め込みフォント。完全なUnicodeカバレッジを持つ最新のOpenTypeフォントは1~3 MBになることがあり、6つのフォントファミリーを使うスライドではすぐ膨らみます。3つ目は冗長または整理されていないオブジェクト: 改訂履歴、削除されたが実は破棄されていない画像、毎ページに重複して埋め込まれた同じロゴなどです。
あなたのファイルでどれが支配的かを知ることが、最も役立つ診断ステップです。スキャン中心のPDFとスライド書き出しのPDFは別の問題で、同じ対処法は効きません。
本当の圧縮テクニックは4つだけ
PDF圧縮ツールが「スマート圧縮」や「AI駆動の圧縮」を謳うとき、実際にやっているのはほぼ常に、よく知られた4つの操作の組み合わせです。これらを理解しておけば、結果を推測ではなく予測できます。
- 画像のダウンサンプリング。埋め込み画像のピクセル寸法を縮小します。300 DPIのスキャンを150 DPIに再サンプリングするとピクセル数は4分の1になり、ファイルサイズも約4分の1になります。厳密には不可逆(ピクセルは戻せない)ですが、画面上では見えないことが多いです。
- 画像の再エンコード。コーデックや品質設定を変えること: 無圧縮ビットマップをJPEGに、JPEG品質95を品質75に。大きな効果がありますが、攻めすぎなければ知覚されない範囲から、明らかに分かる範囲まで品質劣化があります。
- フォントのサブセット化と重複排除。文書が実際に使うグリフだけを埋め込み、重複したフォントコピーを統合します。可逆。3つのフルフォントを埋め込むPDFは、1ピクセルも変えずに数MB縮められます。
- オブジェクトストリームの圧縮とクリーンアップ。孤立オブジェクトの削除、内部ストリームをFlate(zlib)で圧縮、同一リソースの統合。完全に可逆で、リスクはほぼゼロです。
可逆 vs 不可逆: 文書に合ったツールを選ぶ
圧縮は可逆(節約したバイトはすべて復元可能で、見た目はビット単位で同一)か不可逆(忠実度をサイズと引き換えにする)のどちらかです。コツは、文書の役割にテクニックを合わせることです。
署名済み契約書、裁判所提出書類、公証付きPDF/Aアーカイブ、数式図入りの学術論文: 可逆のみ。ぼやけた署名スキャンや再JPEG化された数式は、文書の法的・科学的意味を変えてしまいます。マーケティングパンフレット、社内会議用のスライド、レシピ集: 不可逆で問題なく、意味のあるサイズ削減を達成する唯一の方法であることも多いです。
「ピクセルに触れてはいけない」カテゴリーかどうか判断しづらいときは、デフォルトで可逆にしましょう。節約幅は小さくなりますが、火傷はしません。
実世界の数値感
典型的なオフィス文書から得られる目安です。約束ではなく、方位を知るためのものとして読んでください。
文書タイプ 元サイズ 可逆後 中程度の不可逆後
--------------------------------------------------------------------------
テキスト中心レポート 10 MB 8 MB 7 MB
テキスト + 写真5枚 18 MB 15 MB 4 MB
スライド (PNG多用) 40 MB 32 MB 6 MB
30ページのスキャンPDF 50 MB 48 MB 5 MB
表紙絵付きの電子書籍 12 MB 10 MB 3 MBテキスト中心のPDFがほとんど縮まない理由
ファイルがほぼテキストで、圧縮してもほとんど変化がない場合、それはやり方が間違っているわけではありません。PDFはデフォルトでコンテンツストリームをFlateで圧縮しているため、絞り出せる余裕がほぼありません。テキストのみの文書で意味のある勝ち筋は、フォントのサブセット化、未使用メタデータの削除、忘れられた埋め込みファイルの除去だけです。現実的な期待値: 15~25%の削減が上限です。純粋なテキストPDFで90%圧縮を約束する人は、再ラスタライズしている(くっきりした文字をぼやけた画像に変えている)か、嘘をついています。
これは反応の仕方を変える重要な事実です。10 MBの法的書面が8 MBより下がらないなら、それが床です。テキストを壊して数字を追うより、PDFを2つに分割するほうが正直な解決策です。
スキャン中心のPDFが劇的に縮む理由
逆に、50 MBのスキャン文書は、画面で読む分には見た目の品質を損なわずに5 MBまで落とせるのが普通です。なぜか? ほとんどのスキャナーがデフォルトで300 DPIのカラーになっており、モニターで読む文書には過剰だからです。画面の本文には150 DPIで十分で、中程度のJPEG品質は通常のズームでは見えません。情報を破壊しているのではなく、目が決して使わない情報を取り除いているのです。
印刷用途なら200~300 DPIを死守してください。メールでノートPCで読む用途なら、グレースケール150 DPIがちょうどよい場合がほとんどです。小さな手書き文字や精密な工業線画が含まれる場合は、バッチ全体に適用する前に1ページで試してください。
やってはいけないこと
- 同じPDFを不可逆設定で2回圧縮しないでください。各回でJPEGが再エンコードされ、アーティファクトが積み重なります。3周もすれば、1994年にFAXで送ったような見た目になります。
- 署名済み法的文書、契約書、裁判所提出予定のものに不可逆圧縮をかけないでください。微妙なピクセル変化でも証拠能力を失う可能性があり、署名の劣化が見えれば疑わしく見えます。
- スキャンをOCR → 不可逆圧縮 → 再OCRはやめてください。劣化した画像での2回目のOCRは品質が落ち、しかも元データを失います。
- 機密PDF(医療記録、NDA、確定申告書類)を任意のWeb圧縮サービスにアップロードしないでください。多くはサーバーにファイルを保持し、明示的に利用権を主張しているところもあります。利用規約を読むか、ブラウザ内でローカルに動くツールを使ってください。
- 小さければ良いと思い込まないでください。OCRテキストが破棄されて誰も読めない200 KBのPDFは、正しく検索できる5 MBのPDFより悪いです。
シンプルな決定木
縮めたいPDFがあるとき、以下の質問を順番にたどってください。9割は30秒以内に答えが出ます。
- 法的に重要な文書(署名済み、公証済み、公的提出物)か? 可逆のみ。ここで終了。
- 大きな画像を含まないテキスト中心のファイルか? 可逆クリーンアップを実行。15~25%の削減を見込み、足りなければ分割を検討。
- スキャンや写真が支配的で、画面で読む用途か? 150 DPIにダウンサンプリングし、中程度のJPEG品質で再エンコード。60~90%の削減を期待。
- スライドやPNGスクリーンショット中心のマーケティングPDFか? 写真的な部分はPNGをJPEGに変換、シャープな文字や線画はPNGのまま残す。
- 印刷用か? 画像は最低200~300 DPIに保つ。可逆クリーンアップのみ。
ブラウザベースの圧縮との比較
ほとんどのオンラインPDF圧縮ツールはファイルをアップロードし、サーバーで処理し、小さくなったものを返します。それでも動きますが、コストが2つあります。文書があなたのマシンを離れること、そして変更のたびに往復を待つことです。ブラウザベースのツール(Multilitiesの/tools/pdf-compressを含む)はWebAssemblyを使ってローカルで処理します。何もアップロードされず、小さなファイルなら反応は即時で、移動中にモバイル通信を消費せずレシートのフォルダを圧縮できます。
ブラウザ圧縮にもトレードオフはあります。非常に大きなPDF(数百MB)はスマホのメモリを圧迫することがあり、最も重い再エンコードパイプラインは強力なサーバーよりわずかに遅くなります。ただし、現実の文書をカバーする5~50 MBの日常レンジでは、アップロード時間を含めるとローカル処理の方がエンドツーエンドで速く、データはデバイスを離れません。
コスパの良い具体的なテクニック
ほぼどんなPDFにも効く手早い勝ち筋を求めるなら、以下が最も効果が高いコツです。
- 埋め込みサムネイルを削除する。PDFジェネレーターによっては、すべてのページのサムネイルを焼き込みます。長文書では積み重なり、ほぼどんな最新ビューアーも必要としません。
- 未使用のフォームフィールドとJavaScriptを削除する。古いフォームテンプレートは、誰も入力しなかったフィールドの不活性なスクリプトと定義を抱えています。
- 注釈やコメントをフラット化する。編集を続ける必要がないなら、フラット化することでページの一部にし、クリーンアップで元のオブジェクトを除去できます。
- 色情報が無意味なときはカラースキャンをグレースケールに変換する。同じDPIならグレースケールはカラーの約3分の1のサイズです。
- 元データから再書き出しする。元がWord文書やKeynoteのスライドなら、「最小サイズ」や「品質を下げる」設定で書き出し直すほうが、すでに肥大したPDFに何をするより効くことが多いです。
良い圧縮ツールの設定の実態
多くのツールは3~4のレベルを公開しています: Low、Medium、High、Extreme、あるいは「印刷品質」「画面品質」「メール対応」のような分かりやすい名前。上記4テクニックに翻訳すると、通常はこうなります。「Low」または「印刷」は可逆クリーンアップのみで300 DPIを保持。「Medium」または「画面」は約150 DPIにダウンサンプリングし、JPEG品質80で再エンコード。「High」または「メール」は96~120 DPI、JPEG品質60。「Extreme」は72 DPI、品質40まで落ちることがあり、スキャン内の文字がぼやけ始めます。
ラベルが分かりにくければ、最も高い設定で1ページだけ試してじっくり見てください。試したものが問題なければ、同じ設定で文書全体に適用しても通常は安心です。
まとめ
PDFを上手く圧縮するというのは、文書にテクニックを合わせることがほとんどです。署名済み契約書には可逆クリーンアップ。50 MBのスキャンレポートには積極的なダウンサンプリング。テキスト中心の学術論文は、もう絞り出すものがないのでそのまま受け入れる。最も効くツールは、レベルを選ばせ、何をしたかを正直に教えてくれるものです。
次にメールが弾かれたら、10秒だけ「自分の手元にあるのはどんな種類のPDFか」と問いかけてください。そして適切な設定を一度だけ選びましょう。5つの圧縮ツールに通した挙句、ぼやけてウォーターマーク付きの版を作るより、1回慎重にやれば十分なことが多いはずです。アップロードなしでブラウザ内動作し、コミット前に前後のサイズを示してくれるツールが欲しければ、MultilitiesのPDF圧縮ツールはまさにこのワークフロー向けに作られています。いずれにせよ考え方は同じです: 何がファイルを大きくしているかを知り、それを解決する最も軽いツールを選び、仕事が終わったら手を止める。