2001-11-06 ウェブ図書館の衝撃―PART2―
http://web.archive.org/について,気づいたことがあるので少々。
日を増すごとに,収集履歴が成長しているようです。どういう意味かっていうと,あるサイトのURLを検索したらある日は5件,その日から数日後にもう一度,同じURLを検索すると6件ヒットするという具合です。大事なことはロボット*1が,新たにファイルを収集したから履歴が更新されたのではないということです。どうも「ウェブ上のファイルをとりあえず収集しておいて,サイトの更新履歴はおいおい作っていく」ということをやっているようなのです。ファイルの収集と履歴の作成には時差があるというわけです。
もっとも,あくまで私の憶測です。本当はどういう動作をしているのか分かりません。ちなみに,ちょっぴり大人の話をすると“robot.txt”に適切な記述をするとファイルが収集されないという紳士協定には,現実とずいぶんな隔たりがありそうです。「収集されるけど公開されにくい」が正しいのではないでしょうか。「なぜ?」って大学のゼミで運営していたWWWサーバはロボット抑制していたのに,アクセスログにはロボット(一部エシュ◇ンの疑いあり?)がファイルを片っ端から収集していた記録が残されていましたから。
*1 ウェブ上のファイルを収集するソフトウェアの一般的な呼称です。