页面

2012年11月1日星期四

Twitter 推文网页存档自动简化转换 121101

Twitter 推文网页存档自动简化转换
v121101

修订:
  1. 不依赖于 cygwin sort.exe ,只要安装 ActiveState Perl 即可。
  2. 对 mobile twitter 网页支持。
  3. 其他许多错误修正。具体请看  https://github.com/lihlii/msg_cleanup/commits/master

用法:
  1. 安装 Perl 解释器,推荐用 ActivePerl http://www.activestate.com/activeperl/downloads
  2. 将本文件包内容展开到一个文件夹中。下载文件包: https://www.wuala.com /lihlii_童言无忌/Topic/软件/Twitter/cleanup/
  3. 将需要保存的推文保存为完整网页(Complete HTML)格式,不要保存为仅存网页(HTML Only)格式,那样网页中信息可能不全。
  4. 将保存的推文 HTML 文件拷贝到如上 2. 所述文件夹中。
  5. 运行 merge_sort.bat,该脚本程序可以处理多个 HTML 文件并将其中推文按照时间排序,删除重复推文,输出结果 merge_sort.tsv 是一个以 TAB 字符分隔的已经排序过的推文列表,可以导入 Excel/LibreOffice Calc 软件进行处理。
  6. 运行 tsv2html.bat 会自动将 merge_sort.tsv 文件转换为简化的 HTML 文件适合作为存档。
  7. 也可以直接运行 merge_sort_htm.bat,则自动调用第 5. 6. 步所述脚本程序,在浏览器中打开生成的 merge_sort.htm 文件,如果有内嵌图片,则最好再以完整网页格式保存一次,这样可以确保 将内嵌图片也保存到本地存档。
  8. 拷倍网页内容后可粘贴到邮件编辑器(如 Thunderbird)或博客编辑器中发布。发布的推文格式如 http://lihlii.blogspot.nl/2012/10/alison-klayman-never-sorry.html 所示。
  9. 最新版本发布在 https://github.com/lihlii/msg_cleanup
  10. 有任何问题或修改建议,请联系 lihlii64@gmail.comhttps://twitter.com/lihlii


喜欢这篇文章吗?欢迎发空信给 lihlii+subscribe@googlegroups.com 订阅《童言无忌》邮件组 发空信给 jrzl+subscribe@googlegroups.com 订阅《今日知录邮件组》。

发表评论