页面

2013年7月1日星期一

用 httrack 下载 Twitter 整个对话序列的方法

在浏览器中打开一个对话序列中的某一条推文时,该对话中所有相关推文只有部分显示,需要遍历整个对话中每条推文,才能看到所有相关推文。用 httrack 就能自动做这件事。
Windows 版本叫 winhttrack。比如,如果想下载这条推文 https://twitter.com/lihlii/status/324903561953689601 和与之相关的对话所有内容,方法如下:

1. 运行 winhttrack,按 Next 按钮创建一个新的下载任务:


2. 随便起个 project name 名字,如 twitter thread,按 Next 下一步:


3. 在 Web Addresses 文本框中,贴入需要下载的推文的 URL 网址,每行一个。也可以将多个 URL 写入一个文本文件,每行一个,然后点击 URL list 输入框右侧的按钮,选择该文本文件作为 URL 输入文件:


4. 点击 Set options 按钮,在 Scan Rules 页签上,删除文本框中所有内容,贴入:
-*
+https://twitter.com/*/status/*[0-9]*[]
如下图所示:


5. 点击 Links 页签,使其设置如下图所示:


6. 点击 Spider 页签,设置 Spider 选项为 no robots.txt rules,其他选项也设置为如下图所示:


7. 点击 OK,然后点击 Finish 就可以开始自动下载该推文相关的对话列表里所有推文内容。


如此保存的推文网页,可以用《Twitter 推文网页存档自动简化转换》一文[1]-[3]所提供的工具自动合并转换为简化的网页便于存档和发布。这样就不需要在浏览器里手工保存一个对话里大量相关 的推文了,而且不会遗漏也不会重复。

参考:
  1. Twitter 推文网页存档自动简化转换 121101 http://lihlii.blogspot.nl/2012/11/twitter-121101.htmlhttp://lihliiposterous.wordpress.com/2012/11/01/twitter-121101/
  2. Twitter 推文网页存档自动简化转换 121014 http://lihlii.blogspot.nl/2012/10/twitter-121014.htmlhttp://lihliiposterous.wordpress.com/2012/10/14/twitter-121014/
  3. Twitter 推文网页存档自动简化转换 http://lihliiposterous.wordpress.com/2012/10/06/twitter-92335/

以公民个人身份签署国际人权宪章 http://j.mp/udhr-ss 或发空信给 udhr1948+form@gmail.com 收到自动回信的签名表格,填写后寄回给 udhr1948@gmail.com 即可。请广为传播。
发表评论