项目介绍 | 银河漫游者 - GalaxyRover@home 探索互联网银河的全球志愿者项目

术语

分布式系统（百度百科条目）。这是一种解决大问题的思想。我们求解一个问题N的结果R，当N的规模非常大，用少量设备无法（或者说在可忍受的时间内无法）完成计算时，通常会先将这个大问题N分解若干小问题片段n1、n2、n3 ......分别在非常多的设备上并发执行计算这些片段，得到一系列小结果r1、r2、r3 ......最后，花少量时间，将这些小结果r汇总成N的解：R。

网络爬虫（百度百科条目）。是一种在互联网上不断沿超链接前进，采集数据的程序。这个概念非常形象，如果把互联网比喻成一个大蜘蛛网的话（这是一个大到不可想象的蜘蛛网），超链接就是蜘蛛丝。这些在沿着超链接不断爬行的程序，很像蜘蛛爬虫的行为。

GalaxyRover@home问题规模

根据CNNIC中国互联网络中心于2015年1月发布的《中国互联网络发展状况统计报告》（pdf直达链接），我国域名总数为 2060 万个。我国网站总数为 335 万个，年增长 4.6%；“.CN”下网站数为 158 万个。截至 2014 年 12 月，中国网页数量为 1899 亿个，年增长 26.6% 。其中，静态网页数量为 1127 亿，占网页总数量的 59.36%；动态网页数量为 772 亿，占网页总量的 40.64% 。
可以轻易得到结论：互联网的规模很大（就像一个银河），而且其规模还在不断增长中。本项目希望探索全球网站的分布、分类等情况。毫无疑问，正在试图解决一个巨大的问题。用分布式的思想来解决它，是恰当的。本项目将和全球志愿者一起，构建一个分布式网络爬虫，它分布在全球范围，探索互联网奥秘的时间将大大缩短。

项目模型

本项目由任务调度中心（以下简称中心）和客户端软件（以下简称客户端）两大部分组成。

中心不断产生小型任务包。客户端获取任务包，根据任务包的指示，进行网页处理。接着，客户端对这些页面进行超链接分析。新产生的超链接经过简单消除重复（目的是避免重复处理相同的网页）处理后，被压缩打包回传到中心。在中心后台进行深度的、全局的消除重复处理。最后，根据广度优先的调度原则，重新拆分成小型任务包，放入调度队列。整个系统，如此循环往复执行。

积分及排名系统

志愿者积分，是志愿者完成任务包的数量。每个任务包可能含有若干超链接，具体数量不定，通常在1024-4096之间。项目会定期发布全球积分排名报告。

联系方式

让我听到你们的建议和意见。电子邮箱replace("root#galaxyrover.com","#","@")。通常邮件很多，无法一一回复，见谅！

作为本项目的志愿者，我们自称银河漫游者（GalaxyRover），浩瀚的互联网银河值得我们一起探索。
现在回到漫游指南页面，简单几步，马上就可以参与到GalaxyRover@home的志愿者团队中来！