- 术语
分布式系统(百度百科条目)。这是一种解决大问题的思想。我们求解一个问题N的结果R,当N的规模非常大,用少量设备无法(或者说在可忍受的时间内无法)完成计算时,通常会先将这个大问题N分解若干小问题片段n1、n2、n3 ......分别在非常多的设备上并发执行计算这些片段,得到一系列小结果r1、r2、r3 ......最后,花少量时间,将这些小结果r汇总成N的解:R。
网络爬虫(百度百科条目)。是一种在互联网上不断沿超链接前进,采集数据的程序。这个概念非常形象,如果把互联网比喻成一个大蜘蛛网的话(这是一个大到不可想象的蜘蛛网),超链接就是蜘蛛丝。这些在沿着超链接不断爬行的程序,很像蜘蛛爬虫的行为。
- GalaxyRover@home问题规模
根据CNNIC中国互联网络中心于2015年1月发布的《中国互联网络发展状况统计报告》(pdf直达链接),我国域名总数为 2060 万个。我国网站总数为 335 万个,年增长 4.6%;“.CN”下网站数为 158 万个。截至 2014 年 12 月,中国网页数量为 1899 亿个,年增长 26.6% 。其中,静态网页数量为 1127 亿,占网页总数量的 59.36%;动态网页数量为 772 亿,占网页总量的 40.64% 。 可以轻易得到结论:互联网的规模很大(就像一个银河),而且其规模还在不断增长中。本项目希望探索全球网站的分布、分类等情况。毫无疑问,正在试图解决一个巨大的问题。用分布式的思想来解决它,是恰当的。 本项目将和全球志愿者一起,构建一个分布式网络爬虫,它分布在全球范围,探索互联网奥秘的时间将大大缩短。
- 项目模型
中心不断产生小型任务包。客户端获取任务包,根据任务包的指示,进行网页处理。接着,客户端对这些页面进行超链接分析。新产生的超链接经过简单消除重复(目的是避免重复处理相同的网页)处理后,被压缩打包回传到中心。在中心后台进行深度的、全局的消除重复处理。最后,根据广度优先的调度原则,重新拆分成小型任务包,放入调度队列。整个系统,如此循环往复执行。
- 积分及排名系统
- 联系方式
作为本项目的志愿者,我们自称银河漫游者(GalaxyRover),浩瀚的互联网银河值得我们一起探索。 现在回到漫游指南页面,简单几步,马上就可以参与到GalaxyRover@home的志愿者团队中来!