パーソナル・インターネット・アーカイブの構築1

情報収集のツールとしてインターネットが当たり前になった現在において、ウェブページの保存は重要な問題だ。ウェブページは往々にして削除される。あるいは限定公開に切り替わって閲覧が有料化することもある。アクセスできなくなってしまうのだ。そのためウェブページを個人的に保存する必要が出てくる。

最も簡単な方法は Evernote や OneNote に保存することだ。例えば私は Google Chrome を使っているが、Evernote や OneNote のブラウザ拡張機能があるので数クリックでウェブページを保存できるようになる。

しかし、Evernote はすぐに無料枠がいっぱいになってしまう。一時期有料版を使っていたがお金を払うほどのことでもないと思うようになったし、ノートが増えれば増えるほど端末に同期する時間がかかってストレスに感じるようになった。だから無料版に戻しウェブページの保存用に使うのをやめた。

OneNote は Office 365(最近 Microsoft 365 と改名されるという旨のメールが来た)を契約しているので OneNote もフルで使える。しかし、OneNote によるウェブページの保存は使いにくい。保存したページが見にくいのだ。最近までウェブページの保存にずっと使っていたが、できればやめたいと思っていた。

たしかに Evernote や OneNote はお手軽にウェブページを保存できるが、その後の管理や閲覧性において面倒が生じる。

そこで、自前でウェブページの保存システムを構築することにした。パーソナル・インターネット・アーカイブである。

私が求めるのは以下の条件だ。

・iPad で外出先からも参照できる。
・記事の全文検索ができる。
・保存ページのブラウジングしやすい。
・保存の手間が少ない。
・綺麗なレイアウトで保存できる。あるいは、オリジナルのまま保存できる。
・無料あるいは安く実現できる。

Evernote や OneNote といった、独自形式のクリッピング・ツールを使う以外で、ウェブページを保存するには、代表的な方法は大きくわけて2つある。一つは PDF での保存、もう一つはページをそのまま HTML で保存する方法だ。

PDF での保存はファイルとしての管理や全文検索もしやすい。どんな端末でも簡単に閲覧できる。しばらくは PDF での保存にしようとおもっていた。

ただ、問題は保存プロセスだ。PDF は縦長のページをそのまま保存することもできるが、それだと閲覧性が悪くなる。印刷するときのように A4 サイズで区切っていくと、保存されるページが汚くなる場合がある。そのあたりの調整が難しくて、保存の手間がやたら掛かる。

となると、HTML でウェブページをそのまま保存してしまうのが最善策となる。HTML ならあとで加工しやすい。なんなら、HTML で保存したウェブページを改めて PDF 化したりもできる。印刷もしやすい。

ウェブページをファイルとして保存するなら、単一ファイルとして保存するのが良い。1ウェブページを複数ファイルに分解して保存すると管理がものすごく大変になる。1ウェブページを1 HTML で保存する方式でいこう。

ウェブページを単一ファイルとして保存できる Chrome 拡張は、SingleFileZe と monolith がある(monolith はコマンドラインツールもある)。

SingleFileZ – Chrome Web Store
https://chrome.google.com/webstore/detail/singlefilez/offkdfbbigofcgdokjemgjpdockaafjg

Monolith – Chrome Web Store
https://chrome.google.com/webstore/detail/monolith/koalogomkahjlabefiglodpnhhkokekg

これらはページタイトルがファイル名となる。万が一元の URL を知りたくなったら、HTML のコードを見ればいい。

私は基本的に SingleFileZ を使っているが、monolith だと Javascript をオフにした状態で保存したりといった、細かい調整もできる。

広告などウェブページの不要部分を除いて保存したい場合、Chrome 拡張の ekill を使えば一時的にページ上のパーツを削除できる。この状態で保存すればいい。

ekill – Chrome Web Store
https://chrome.google.com/webstore/detail/ekill/lcgdpfaiipaelnpepigdafiogebaeedg

複数ページに分かれていれば、AutoPagerize という Chrome 拡張で、1ページに収めた状態で保存すればいい。

AutoPagerize
http://autopagerize.net/

このようにしてウェブページをじゃんじゃんローカルに保存していく。

参考:
The Best Tools to Archive Web Pages
https://lifehacker.com/the-best-tools-to-archive-web-pages-1794802605

(2へ続く。)

> 本記事のタイトルとURL をコピーする <

書籍