当前位置:首页阅读

网页时光机·考古用法介绍#1 初步认识和基础功能

网页时光机·考古用法介绍#1 初步认识和基础功能

哔哩哔哩

网页时光机·考古用法介绍#1 初步认识和基础功能

作为全世界最大的网页历史博物馆,网页时光机到5月末已经至少缓存了四千多万亿个不同时刻下的各种网页页面。笔者从2017年底开始接触B站考古以来,也一直把网页时光机视为极为重要和可信的考古工具。

笔者上一次在专栏中提到网页时光机的用法 (cv423670) 距今也已有两年多了,而且网页时光机在那之后也做了些许改版,有一部分当时的教程在现在已经稍显落后,失去了时效性。本系列的专栏正是为介绍最近版本网页时光机的各种考古相关功能及使用方法而编写的,希望本系列能为对网页时光机有所兴趣、以及有使用需求的站友们尽一份绵薄之力。

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

网页时光机 LOGO

/// 正文前的友情提醒:访问此网站需要有网络工具。///

1.1 部分注意事项

时光机最基本的工作机理,用通俗的语言描述,就是将目标页面的代码复制到网页时光机自己设立的服务器中,并以进行保存的时间作为后续浏览和查找的标记。由于时光机是直接顺序爬取并复制网页数据而实现保存的,因此时光机的数据在考古方面有很高的可信度,笔者在考古时出现不同渠道的信息差别时,一般都优先以时光机内储存页面的数据为准进行校核;此外,时光机会将爬取的数据存放在他们自己设立的服务器上,因此时光机保存的数据存活与否不会受到原网站方服务器数据的存活状态的影响,数据能保存的时间也非常长(不过由于时光机保存的数据量增长太快,运营维护成本大增,最近两年时光机已经开始对外公开求助自愿捐赠了)。

在正式使用时光机前,还有一些时光机的一些基本注意事项。在考古过程中,常见的注意事项至少包括以下几条(暂未补完):

1.对于一个单独的URL,时光机可以在不同时刻对它进行多次页面保存(Save Page)。每一次捕捉保存会对应生成一个16位时间码(记录保存时的年月日时分秒),同一个URL的不同次保存记录之间互相独立。

2.现假设有两个网页链接A和B,且A的网页中包含能直接跳转到链接B的超链接。当你查看时光机里某个时刻下链接A的保存页面时,如果直接在A的时光机缓存页面里 点击跳转到链接B,时光机会帮你自动跳转至链接B的时光机缓存页面,而不是直接打开链接B本身。而且,这时新跳转的链接B的保存页面,是和跳转之前链接A的缓存时间点距离最近的一次链接B保存页面。简单一些说,时光机中的链接跳转默认在时光机对两个链接的保存页面之间进行。

3.无论时光机对于网页中的其他元素能够保存得多么完整,时光机一般都不会保存网页内的视频。

1.2 单个搜索功能

网页时光机的网址为 web.archive.org 。时光机提供的搜索方式其实有两种,一是根据网页链接URL直接进行精确搜索回溯,二是像搜索引擎那样用页面关键词进行间接查找和回溯。对于实际考古来说,99%以上的情况我们都凭借URL进行直接搜索和回溯,而关键词搜索在考古应用中基本不会使用(笔者本人一次也没有用过,在此提及它只是为了让专栏的介绍更全一些),因此本系列的专栏在谈及搜索相关用法时只讲基于网页链接URL进行的搜索回溯。

在浏览器中输入时光机的网址,我们可以看到网页时光机的主页界面如下:

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

在界面中上方,网页时光机红黑LOGO的右边,是它的搜索框。

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

搜索栏

向框内输入你想回溯的网址,回车,即可搜索到网页时光机对它的各次缓存记录。我们以哔哩哔哩在2010年刚改为现名时的首页(bilibili.us)为例进行演示:

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

上半部分

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

下半部分

上二图是搜索结果的网页截图,我把它分为了上下两个部分进行展示。可以看到,输入 bilibili.us后,页面会以 年份选择器 和 日期选择器 的形式向我们呈现时光机对于 bilibili.us 这一URL的所有保存记录。通过年份选择器在不同年份之间进行切换,再在下方的当年日历中选择目标日期,以进行后续的访问。年份选择器上方的一句英文表明,2010年1月24日至2020年4月15日之间,bilibili.us 先后被保存过357次。

在下方的日历中,可以看到有一些日期被颜色和大小不同的圆圈包裹。被圆圈圈起的日期表示网页时光机在这天对此网址链接有保存记录,反之则无。

圆圈范围越大,表示这一网址在这一天的被保存次数越多。例如:

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

被保存过1次

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

被保存过3次

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

被保存过6次

而不同的圆圈颜色表示的则是不同的保存状态。颜色一共4种,分别为蓝、绿、橙、红。蓝色表示保存记录可以正常使用,绿色表示相应的保存记录有另外的链接重定向,橙色表示链接出现问题(Client error),红色表示服务器出现问题(Server error)。在实际的考古应用中,所见到的蓝色圈还是占了极大部分的,其次是很少数的绿色圈;而橙色和红色圈基本见不到,当然如果见到了也就表示这个保存记录基本无法使用了。

在选定我们要访问的保存记录的具体日期后,要将鼠标悬停在对应日期上方。此时在这一日期旁边会显示当天时光机对该URL的各次保存记录(如上图例中的精确时分秒),进一步点击到详细的保存时刻上,才能进行访问。(在一两年前时光机还可以直接点击日期进行访问,默认打开的是当天最早的一次保存页面)

现在我们打开 bilibili.us 在2010年1月24日的最早一次缓存,如下图:

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

从浏览器中很容易看到,这个保存页面的时光机网址为:

笔者在这里进行了两处颜色标注。标注为红色的16位数就是当时这次缓存的时间码(呼应前文所提),对应的时光机抓取网页当时的具体时刻(时光机的所有时间默认都是格林尼治GMT时间,如果换算为北京时间,则需要加上8小时),2010年1月24日9点1分10秒;后面的绿色段就是所保存网址的URL。那么,这个完整链接的意思就可以近似表达为:网页时光机 在2010年1月24日9点1分10秒 抓取到的

作为基本功能,在网页时光机中针对单个URL进行搜索和简单浏览的流程其实不算复杂。现在我们就可以在时光机的页面里自由地进行浏览了。

1.3 主动保存(Save Page)

搜索功能可以让我们在当今看到过去的网页们,如果我们想让后来人看到现在的网页长什么样,时光机能否提供这样的功能呢?答案自然是有的,这就要谈到网页时光机的主动保存功能了。

其实,时光机自身会根据网络环境的变化,自动地选取并保存部分网站的一些页面存入自己的服务器中;但是对于一些特别的个人保存需求,时光机还免费提供了主动保存这一功能。我们可以利用它,将一些现在有特殊用处的关键网页,借助时光机进行抓取、形成保存记录。我们日后只要输入现在所保存网页的URL链接,就可以进行浏览它们在现在的样子了。

网页时光机的主动保存方式包括而不仅限于以下两种:

第一种方式,也是最方便的方式,是在网页时光机主页的 Save Page Now 处进行保存,如下图示:

网页时光机·考古用法介绍#1 初步认识和基础功能_WWW.XUNWANGBA.COM

主动保存

第二种方式是借助浏览器插件。在浏览器中安装 Wayback Machine Chrome 扩展,进入需要保存的页面后,启动插件即可进行保存。而其他保存方式比较繁琐,而且效果没有多少区别,这里不再赘述。

在输入框下方,是时光机官方对于这一功能的备注:捕捉当前网页以备将来作可信引证。将我们需要保存的网址完整的复制到框内,点击 SAVE PAGE 按钮,即可在网页时光机中生成此网页的一次保存记录。一次 SAVE 操作只能对一个URL链接进行一次保存,对于一个URL链接可以多次保存并生成多次保存记录;不能一次性批量地进行网页保存。

但需要注意的是,受到网络环境和人工干预的制约,有一些网址会无法被网页时光机进行抓取和保存,或者保存下来的页面中会出现内容残缺、排版错乱等情况,换句话说,这一功能其实成功率并非100%。网页时光机中对于 mikufans@http://www.xunwangba.com/read/ 在2009年的保存页面基本都是没有排版的,这就是因为当时的时光机没有成功保存那些网页的CSS样式表而导致的。

同样简短的收尾

本篇作为整个系列的第一篇,主要内容在于时光机的最基本功能和使用,往后的专栏才会逐步涉及一些有技巧性的东西,因此这一期的篇幅并不长。

而由于本专栏是笔者个人独自编写而成,有时难免会出现行文或者信息的错漏。如果有读者发现专栏中有任何错误,或者觉得专栏还有值得增补的内容,欢迎通过评论或者私信提出建议和纠错,笔者在日后对专栏进行改订的时候,会对您提出指名感谢。

再次感谢大家百忙之中的阅读!

/// 本文作者:UID-15537817

/// 2020.05.22 初版

网页时光机·考古用法介绍#1 初步认识和基础功能)宝,都看到这里了你确定不收藏一下??