面向贫困地区基础教育的远程教学*

Randolph WangX    Kai LiX    Margaret Martonosi³   Arvind Krishnamurthyl

1 简介

基础教育对于贫困地区的脱贫解困起着至关重要的作用。然而,基于设立传统学校的方法难以在短时间内满足发展中国家对普及基础教育的巨大需求。在此,我们提议一个基于数字化技术的远程教学项目,目的是通过扩大现有教师的教学覆盖面和提高他们的工作效率从而给贫困地区的孩子提供他们所缺乏的高质量的基础教育。我们计划联合美国的普林斯顿大学、耶鲁大学和中国的相关院校及组织的力量来完成该项目。

该项目将有机地结合高科技和“低科技”手段。其中,“低科技”手段的例子包括通过邮寄移动存储设备来提供高带宽的交互而无需依赖于良好的网络基础设施。高科技部分通过在一个P2Ppeer-to-peer)系统中综合利用多种通讯渠道(包括使用互联网和邮寄存储设备的方式)来连接不同时空中的老师和学生。如果成功的话,我们相信我们的工作不但将从根本上改善基础教育的发展前景,也将建立起一个适用于医疗保健,商业,信息发布以及娱乐等诸多应用的数字化通讯平台。该合作研究项目也将为前沿的计算机科学和教育学研究提供真实世界的试验平台。同时,我们希望该项目能够成为跨学科及跨国界合作的典范。

本提案的余下部分组织如下:第二节讲述我们的研究动机,它简单列举了基础教育的重要性、传统方法面临的挑战以及远程教学的优势。第三节概括了主要的技术创新。第四节给出初步的组织计划,包括合作伙伴的选择以及一个框架性的执行计划。第五节详细描述了该项目在计算机领域的主要技术创新。(我们将尽量使我们的描述浅显易懂,但没有相关技术背景的读者也可以选择跳过该节)。第六节将讨论一些读者可能关心的问题。

2 研究动机

2.1 基础教育的重要性

现代社会的发展越来越依赖于科技和信息的发展及应用,随之而来的则是对受过良好教育和训练的人才的空前需求,因而基础教育是一个国家未来发展的根本。

对于发展中国家而言,基础教育的作用更是至关重要。彼得.贝尔(Peter Bell,与贫穷作斗争的国际知名组织(CARE)的主席)将扩大基础教育的范围列作消除极度贫穷的三个首要环节之一[1]。在贫困地区,一代又一代人重复着缺乏教育、缺乏工作机会、贫穷、无力给下一代提供教育”的恶性循环,而教育的缺乏正是这一沉重枷锁上的重要一环。如果我们能够在广大贫困地区提供便利而廉价的基础教育从而打破这一恶性循环,其深远影响将惠及子孙后代。大部分专家都赞同帮助贫困地区脱贫的最好方法是为当地民众提供所需的工具手段以便他们能够掌握主动,自觉地去发掘机会,而不是由专家们来制定具体的解决方案。在改善基础教育方面的投资符合这些专家看法。

我们的动机不仅仅是冰冷的经济发展数字。我们也不能忘记人性的一面。让我们不要忘记那些父母们忍饥挨饿在街上收集矿泉水瓶以便能够筹集子女学费的情景。极度贫穷是对人类尊严的打击。马丁.路德.金说过在真正意义上,所有的生命都是相互联系的,穷人的痛楚使富人在精神上变得贫穷,而穷人生活的改善让富人在精神上变得更富有。我们大家都有义务来与极度贫穷作斗争,而改善基础教育是为数不多的有效方法之一。

进一步说,在一个信息爆炸的时代,大部分未能接受基础教育的人会有一种深深的与社会脱节的感觉,一种迷惘的感觉,这有时候会转变成对社会和生活的不满,进而成为社会动荡的源头。反之,享有基础教育能够给人一种融入的感觉,一种能够参与社会并为之做出贡献的自豪感。这样一种健康向上的精神上的满足感,其价值是不能仅仅用金钱来衡量的。正如温家宝总理在最近一次采访中说道,民众教育水平的不足是阻碍更快的政治改革的最大障碍[14]

2.2 传统方法面临的挑战

改善基础教育的传统方法所面临的最大问题是难以真正普及。据估计,在中国有两亿文盲,而在印度有四亿文盲[2]。女性人口的状况更糟(中国女性文盲率超过20%,而印度女性文盲率超过40%)。这些估计还可能只是保守的数字(关于识字的定义各地不同,有的定义是相当宽松的)。而从识字到能够提供就业机会的基础教育水平之间的差距也可能相当大。

虽然最近几年基础教育有很大提高,而且在接下来的几年里还会有更大的进步,利用传统方法来普及教育仍然困难重重。建造传统的砖瓦学校速度慢而且耗资巨大,要消除现有的人数众多的文盲需要大量资金的长期投入。教师资源也很缺乏,特别是受过良好训练,有能力而且真正热爱工作的教师非常缺乏。很多贫困的偏远地区很难吸引和留住优秀的教师。

事实上,即便是发达国家也在教育资源方面面临着很大的压力。比如说,美国每年在教育上花费8800亿美元,但还是有很多人认为美国的基础教育不够。象中国和印度这样的国家,人口基数更大,文盲率更高,人均资源更少,偏远贫困地区更多,基础设施更差,地区差异更显著,要赶上发达国家的基础教育普及水平将是一个长期的斗争过程。

2.3远程教学的优势

随着网络和其他数字技术的持续发展,远程教学成为推广普及基础教育的一个可能解决方案。远程教学的优点是多方面的。远程教学的内容可以制作一次后重复使用。远程教学的覆盖面可以更广。由于无需诸如在大量学校里安置大量教师的费用,远程教学可以更经济。当前,农村地区适龄学童辍学的一个主要原因就是他们需要帮助家里干农活,尤其是在农忙季节,因而和学校的上课时间冲突。远程教育可以让学生选择适合他们的学习时间和进度从而解决这个问题。对于那些有志于帮助这些孩子,但又不想忍受贫困地区艰苦生活的教师而言,远程教学是一个很有吸引力的选择。(这种吸引力对于象今天的阿富汗和伊拉克这样的危险地区可能更加明显)。这个系统也允许志愿者更加灵活地安排时间。比如说,一个志愿者可能愿意通过远程教学系统每天抽出一个小时的空余时间来批改作业。这比志愿者在现有系统中的投入要小得多,所以我们有可能吸引到更多的志愿者。即使是对于那些愿意到偏远地区为那些需要他们的孩子服务的教师,远程教学也可以为他们省下旅行的时间从而提高他们的工作效率。

需要指出的是,数字化远程教学系统的目的不是要与教师们竞争甚至替代他们,相反,这样一个系统的目的是要放大现有数目有限的教师的能力,拓展他们教学的覆盖范围。换句话说,我们并不认为通过远程教学渠道传授的课程会比优秀教师面对面教学的质量要好。但是对于今天那些根本没有机会接受任何基础教育的孩子们来说,享有远程教学将是一个很大的进步。

如果这个数字化远程教学计划执行得当的话,随之而来的一个重要的副产品就是一整套能够用于其他改善贫困地区生活的措施的软硬件基础设施。这里列举几个可能的例子:初步的医疗保健(通过远程诊断的方式),对本地商业的推动,更丰富的社交娱乐。总的来说,它能够更好地把贫困地区和外面的世界联系起来从而让当地民众有一种融入社会的感觉,同时能够促进当地经济和社会的发展。在工业社会的萌芽时期,铁路、公路、高速公路等物质基础设施作为一种强有力的催化剂,大大推进了原本相互隔离的世界各地之间的联系。在当前的信息社会,数字化基础设施应该起到同等关键的作用。建立这种基础设施和古人“授人以鱼不如授人以渔”的道理不谋而合。一旦这些软硬件设施到位,当地民众就能因地制宜,利用这些设施开发出更多的应用。远程教学为建设这样一套基础设施提供了最初的推动力。

3 技术创新概要

3.1 远程教学面临的挑战

现有的远程教学大都着眼于如何在资源相对丰富的环境里提供高等教育。要成功地采用远程教学来提供基础教育,我们至少面临两个挑战:(1)要能够提供复杂的交互模式;(2)要能够适应资源的限制,特别是通讯带宽的限制。在很大程度上,这两个目标是相互冲突的。现有的方法都倾向于牺牲其中一个来达到另一个。

两种极端做法之一是通过电视或者是可被邮寄的存储介质(譬如CDDVD)来传播教学内容。对于带宽要求更低的内容,也可以通过互联网下载到学生的计算机上。这种方法所能提供的交互性即使有也非常有限。虽然它对自发、自律、具有一定理解能力从而能够充分利用有限学习方式的成年自学者来说可能有效,但不一定适用于那些需要更紧密的监督以及和教师频繁交互的孩子。另一个极端则是利用类似远程会议的方式来进行教学:老师和学生进行实时的语音和图像交互。这种方法的缺点是消耗大量的通讯带宽和不具可扩展性。这使得它很难在资源有限的发展中国家中实施。

3.2 与现有项目的联系

在中国教育部主持下,一些雄心勃勃的远程教学项目已于近期启动[51221]。我们相信,我们所提议的项目将为这些已有的项目起到很好的补充作用。(1)已有的项目着眼于对必需的关键性硬件技术的投资,而我们的项目则更关注所需基础设施中的软件部分。正如有关专家所指出的[12],这个项目的软件部分与其硬件部分一样重要。(2)正如我们在前面提到的,最简单的仅靠播放DVD的教学方式缺乏学生和老师之间的交互,而在我们看来,这些交互是成功的基础教育所不可或缺的。更加先进的利用卫星网络的教学方式也有其自身的缺点:卫星网络的带宽有限而且昂贵。我们的提案可以在缺少高带宽网络的情况下提供交互。(3)已有的项目致力于建立一对一的联系,而我们的提案则试图将包括学校,老师,作业批改者以及相关助理人员在内的所有参与者组织成一个虚拟社区。这样一个社区的集合力量将远大于许多孤立个体的力量总和,从而能够更好地服务于社区成员并吸引更多的参与者。(4)我们的目标之一是要开发一个适用于其它类型应用的通讯平台,而不仅仅是局限于远程教学。

高质量基础教育的普及是一个世界性难题。我们相信, 在所提的远程教学合作项目中将很可能产生一些有趣的技术,从而使各具体参与组织以及中国作为一个整体在这一问题上处于世界领先地位。

3.3 技术创新概要

在这一小节,我们简要介绍主要的技术创新。对于这些技术更详细的描述将在第五节中给出。这些新技术最终是为了达到两个目的:一是要不依赖高带宽通讯网络而提供有效的交互;二是要尽可能地提高教师的工作效率和教学覆盖范围。为此,我们的第一项技术是对非常规的高带宽异步通讯渠道的利用。第二项技术是一个面向交互的P2P系统,它不仅允许更有效的信息流动,也让教师能够根据自身情况更加灵活地安排时间。第三项技术是交互设备的智能化,以减少对带宽以及人工监控的要求。除了可用于远程教学,我们相信这些技术也将为最终建立一个具有更广泛应用的数字化通讯平台打下了基础。这些技术中的计算机学研究课题(包括分布式系统和人机交互部分)也可以为研究生提供科研和实际相结合的机会。

3.3.1利用异步分布式存储系统来提供交互

我们首先给出下面一系列问题:(1)对于一个带宽较低的广域通讯网络,我们能够提供怎样的有效交互模式?(2)如果我们将“通讯网络”的定义推广到包括邮寄存储介质的方式,我们又能支持什么样的交互模式?如何将这种新的通讯方式与包括传统网络和本地存储组件的系统其余部分相结合?(3)如何使我们的系统构架更通用,以便更多的应用可以受益。

我们将使用HLHBHigh Latency High Bandwidth,高延迟高带宽)信道来表示通过邮政系统来邮寄信息的渠道。(5.1.1节中我们将提到邮政系统之外的HLHB信道)。相对应的,我们用LLLBLow Latency Low Bandwidth,低延迟低带宽)信道来表示通过传统互联网传输信息的渠道。乍一看,使用HLHB信道似乎是针对资源有限的贫困地区的权宜之计,但我们并不这样认为。HLHB信道的吸引力是基于存储介质密度增长和广域网带宽增长的一个根本趋势:即前者速度远大于后者。这意味着HLHB信道对发达和发展中地区同样非常有吸引力,而且随着存储技术和广域网技术之间差距的扩大这种吸引力将不断增大。我们的目标是建立一个能够天衣无缝地对所有这些通讯渠道进行综合利用的异步分布式存储系统,并且在它之上开发各种有趣的应用,如在商业、信息和娱乐等诸多方面的应用。我们的远程教学项目只是其中一例。

3.3.2 P2P的交互

正如我们在前面已经提及,我们的目的不是要替代人的作用,而是要提高现有的有限人力资源的功效。我们希望能够吸引各地的参与者,这不仅包括各年级的学生和具有各种专才的教师,也包括可以担当像批改作业和助教这样任务的志愿者。只要我们有一定的质量监控机制,对于参与者在时间安排和技能上要求可以是灵活的。实际上,我们希望我们的系统能够像“市场”一样运作,对各种服务(比如作业批改)的需求和供给能够在系统中相互匹配。在某种意义上,这和诸如拍卖所这样的现有的商业市场是很相似的 (人们是否免费提供他们的服务是一个独立的事项:我们预期一部分志愿者将无偿服务而其他人则为他们所花的时间收取一小笔费用。当然,孩子们应该免费接受他们的教育。)

要建立这样一个“市场”,一种简单的方法是要求所有的交互都通过一个集中式的服务器,比如说,学生必须把作业(比如说以扫描的方式数字化)递交到一个中央服务器(可以利用前面讨论过的任何通讯渠道,见3.3.1节)。这个中央服务器再把作业发派给可能在第三地的作业批改者,所以作业还必须被送到这个第三地。(同样,改好的作业包括各种的反馈,也可能需要返回给学生)。这种简单的基于中央服务器的方法的低效性是显而易见的。

一个较明显的改进方案是让学生和作业批改者直接联系。但这种联系也需要彼此协调。从技术层面来说,我们需要的是一个P2P的存储系统,一个P2P的路由机制(routing mechanism)和一个建立于它们之上的P2P交互式应用。我们至少面临两个现有系统尚未能很好解决的问题:(1)考虑到特定应用背景(如作业批改)的P2P路由选取。(2P2P体系结构和异步通讯渠道的结合。(见3.3.1节)。

我们相信通过围绕P2P体系结构来建造我们的远程教学系统,它将具有以下一些有用的特性。它将允许更广泛和更灵活的参与,P2P的体系结构使得愿意在系统中扮演各种角色的人都能够很容易地加入。随着参与者的增加,系统将能够以分布式的方式随之不断扩展。这些参与者在时间和空间上可以是散布的,我们的系统则可以消除这种时空上的差距。

有的参与者可以编撰教材以供学生使用。有的参与者可以开设新的利用在线资源的地方学校。有的参与者可以作为学生加入系统。有的参与者可以作为教师加入。有些参与者可以作为作业批改者加入。有的参与者可以安排在线“答疑时间”来给学生提供额外的帮助。这些服务有的可以由志愿者提供,而其他一些人可以从由政府或者非赢利性组织提供的资金中收取适当的报酬。实际上,我们希望有些专业教师能够把远程教学作为自己的职业。除了学生和教育者之间的交互,我们的系统也为学生和学生之间以及教育者和教育者之间的交互提供了可能。例如,学生可以方便地和其他远程学生在学业或社会活动方面进行交流。

这样一个系统同时鼓励职责分工---现代经济中提高效率的一条准则。传统上,教师一般承担多种不同的职责:如准备教案、授课、批改作业和答疑。虽然把这些任务集中到一个人身上有其重要优点,但也导致了对宝贵的专业人才资源的低效使用,而我们的系统正是要尽可能的优化使用人力资源。比如说,对简单作业的批改就可以交给教学技能相对较差或者经验相对较少的人员负责。如果我们想充分利用那些受过良好训练,有经验又善于和学生交流的教师的话,我们就不应该让他们承担这些杂务。一个集合众多参与者的远程教学系统可以根据他们的技能水平来进行分工,从而更有效地安排使用人力资源。

当然,正如我们在前面提到的,参与系统的教职员工需要经过仔细遴选并接受质量监控。我们可以用同样的P2P系统来培训与孩子们面对面交流的本地职员。作为一名本地职员,他并不需要了解教学内容的每一个细节,因为教学内容的传授可以由专业教师远程进行(使用3.3.1节中讨论的一种或多种可能的渠道),但他在系统中的作用仍然是非常重要的:我们需要他来维持课堂秩序、管理设备以及就一些行政管理的细节与孩子们进行面对面的交互。对于知识更渊博的职员,他们的角色还可以被扩充。这些职员的一个可能来源正是参加我们远程教学的孩子。比如,一些高年级的孩子就可以给低年级的孩子做助教。我们的目标是建立一个自我支撑,自我放大的循环来解决我们有关资源的最大顾虑之一人力资源。

上述的一系列基于真实场景的P2P交互都是一个成功的大型远程教学系统所应有的。在一个采用P2P体系结构的系统中,这些交互将能够自然地得到表达。我们相信完成后的P2P交互平台也将适用于诸如商业、信息、娱乐等其他应用中的P2P交互。

3.3.3 智能化交互设备。

另一个在不消耗大量网络资源的前提下提供丰富的交互手段的措施是采用智能化的交互设备。考虑以下情况,学生在黑板上写了一个字,老师随后给予反馈。一种简单的解决方法是用一个数码录像机不断拍下黑板上的书写并将其传输给在远端的老师。这个方案需要大量的网络带宽。有三种优化方法可以使交互设备智能化,从而在使用较少带宽的情况下也能够达到同样的交互效果。

第一种优化是使用更加紧凑的数据表达方式。微软公司在“写字板电脑”(TabletPC)中使用的数字墨水(digital ink)技术就是一个范例。但是,我们要先解决写字板电脑自身的一些问题。首先,我们需要一个大小上更象黑板从而可以被一组人同时使用的设备。通过共用一个设备,小组成员可以共同学习,互相帮助。其次,这个设备需要是低成本的。给每个学生配备一个写字板电脑是一个过于昂贵而不可行的方案。另外,通过该设备传送的数据最好能够反映“黑板”上内容的演变情况(而不仅仅是一些静态图像)并针对不同的网络带宽情况(包括前述的异步通讯渠道的情况)作出适当调整。

第二种优化是提供某种形式的自动模式识别和简单的本地自动反馈系统而不必时时需要远端老师的反馈。与传统的语音识别和手写体识别并不完全一样的是,他们的目标是归纳出一个结果,而我们的目标则是总结学习过程中的一般模式。因此,我们需要考虑的不仅是最终的结果,而且是得到这个结果的过程。我们的最新的内容识别系统[7] 中采用的机器学习(machine learning)技术在此将有重要的应用。当然,我们要确认哪些交互可以在本地完成的,而哪些是必须远程进行的,以及如何将二者相结合。我们也要分析如何对早期学生的学习经验进行利用以有助于以后的学生。例如,我们可以从早期学生的学习过程中总结出常犯的错误,并针对这些错误预先准备好反馈信息。另外一个途径是更有效地利用本地职员,他们或许没有针对某一科目的专业知识,但他们具备一般常识并可以帮助总结学习过程中的常见模式。虽然模式识别一直是人工智能研究领域的难题,我们只要能够有效地利用本地职员的一般常识和他们的模式识别的能力就能够绕过这个难题。

第三种优化是使用数字虚拟人。这些虚拟人可以发音,做动作,模仿在远端的老师。比起远程直播老师的一举一动,传输用于控制虚拟人的命令要占用少得多的带宽。同时,它们也给孩子们提供了比空洞的人声更有趣、视觉效果更好的交互。

3.3.4 其他领域

我们还对其他一些领域的问题感兴趣。其中一个是如何提供或改进到偏远地区的网络连接。另一个是提供一个编撰系统以便于编制远程教学所需的教材,包括采用多种异步通讯方式的交互性教学内容。这个编撰系统将使用一系列手段来记录老师的教学过程:(1)无交互的录音录像;(2)协同式的录音录像。这种方式要求教师使用上述的智能化设备来辅助记录的过程;(3)后期制作。在这个阶段老师可以加入一些相关的资料。在编制过程中我们也会针对不同的网络带宽制作适合于它们的版本。编制出来的资料不仅仅适用于远程教学,也将是传统教学方式的一种良好辅助材料。和我们的信息传送系统一样,这个编制系统同样面临一个挑战,那就是要使系统在很大程度上独立于任一特定的编制内容和应用环境,从而可以较容易地被用于其他应用环境。在这些领域,我们将尽可能利用已有的最新技术。在得到最初的一些经验之后,我们期望我们能够就这些领域提出一些更具体的科研方向和设想。

4 项目的组织与执行

4.1 参与者

在项目的初始阶段,我们希望能够邀请到以下各方面的参与者并把他们有效地组织起来。

·        试点学校    这些试点学校将被设立在需要的地区。它们可以是在城市里,但更可能是在偏远的农村地区。来自当地的参与者将在帮助我们了解该地情况和需要的过程中扮演重要的角色。

·        师范院校    师范院校,如上海的华东师范大学和北京的北京师范大学,是培养新一代教师的地方。通过参与这一令人振奋的基于新技术的远程教学实践,从这些师范院校挑选出来的学生志愿者将在以下方面获取宝贵的经验:(1)他们将学习并从事适合于远程教学的数字化教材的开发;(2)通过远程教学机制与真实世界中的孩子们进行交互并得到更多的教学实践机会;(3)更好地熟悉掌握新的数字技术。我们认为上述任务在很大程度上对于这些志愿者来说并非完全陌生,特别是其中的教学实践环节,早已是现有的师范教育体制的有机组成部分。新的远程教学机制的引入仅仅是在已有师范教育的基础上增加一个新的可能性。换句话说,远程教学在师范教育中的作用将是补充性的,而不是替代性的。同时,我们希望远程教学中接触最新技术的机会能够吸引更多的学生来投身于教育事业。

·        中小学教师    我们希望能够邀请一些有经验的中小学教师来参与我们的项目。他们的主要任务将是帮助制订教程。我们最终目标是让在偏远地区的孩子也能够享受到由最好的老师提供的最好的教育,所以经验丰富的教师的参与是至关重要的。我们将研究如何在远程教学教程中应用他们的先进教学方法。当然,我们同时也希望他们中的一部分人能够使用远程教学系统来进行教学。

·        技术院校    这包括中国和美国一些顶级大学的计算机系,如清华大学,上海交通大学,以及美国的普林斯顿大学和耶鲁大学。正如我们在技术概述部分解释过的一样,在广域网带宽有限的情况下提供复杂的远程交互是非常具有挑战性的。对此我们计划采用在分布式系统和用户界面领域中的一些新技术。各计算机系的研究生和教授在本项目中的任务是在这些技术领域进行研究并与从事远程教学的教育工作者们密切合作。同时,基于对这些技术课题的研究,他们可以发表学术文章以及完成学位论文。

我们相信所有这些参与者都将通过彼此学习而受益匪浅。师范院校学生和教师将有机会接触新的技术。计算机专业的学生和教授们将为他们的技术研究找到真实的应用背景。试点学校的孩子们将同时受益于资深教师的丰富经验和师范院校学生的热情。走出我们所熟知的世界,所有从事远程教学的教育工作者也许能够更加深刻地体会到那些需要我们帮助的孩子们身上所蕴藏的巨大潜力,并且为能够帮助他们改变命运而感到发自内心的满足。

4.2 执行步骤

·        规划阶段    我们计划与一系列相关组织进行会谈以组成最初的规划小组。该小组的成员将包括来自上述各领域的参与者。这个小组将选择一些地区来设立试点学校进行最初的试验。该小组将到这些地区实地考察以更准确地估计当地的需要并进行资源评估。(在初期阶段我们所需的资源主要是愿意在该项目上投入时间的人员。我们相信对于设备的需求在初始阶段将不会太大。) 该小组将负责提议什么样的特点是远程教学系统的后续版本所应该具有的。本提案中提到的想法仅仅是为这些后续讨论起抛砖引玉的作用:小组成员可以提出新的想法,也可以现有的想法择优选取。

·        开发阶段    这一阶段的任务包括:(1)开发适用于数字化远程教学平台的教材;(2)开发便利远程交互的技术;(3)进行小规模授课测试以评估系统的优缺点;(4)制定计划对现有系统进行改进并多次重复评估改进这一循环。我们认为保持最初系统的简洁性是十分重要的:我们希望用从实际授课测试中得到的经验教训来推动每一轮的系统更新。

·        实用阶段    为了使系统逐渐实用化,我们需要在开发阶段就开始一系列的准备工作。任务之一是确认进行远程教学的试点学校的分布范围。还有就是要为设备和扩充教工队伍而寻找资金。虽然我们可以允许在教学内容编辑阶段使用相对昂贵的设备,但是每个偏远学校所需设备的费用必须努力控制在最低,因为这部份费用会随着远程教学的推广应用而倍增。我们预期来自各方的设备捐赠将在很大程度上满足我们的需要。(计算机硬件的费用正在迅速下降。) 研发工作将在实用阶段继续, 譬如可扩展性问题将随着系统的推广而变得越来越重要。

5 技术细节

在第3.3节中我们已经就本项目的技术创新点做了一个概述。在本节中我们将逐点展开详细阐述。

5.1 利用异步分布式存储系统来提供交互性

首先让我们考虑两种通讯渠道:一种是靠邮政系统来运送存储介质(例如DVD甚至硬盘);另一种是广域的互联网连接。如果我们比较在一或两天的时间中这两种方法所能传送的字节数,那么众所周知前一种方法要远胜于后者。也许有人会认为这只不过是现有互联网容量有限所造成的暂时现象。但我们认为事实并非如此。我们的观点是基于对一些根本性的技术发展趋势的观察:磁介质的存储密度已经以每年60%100%的速度持续增长了好几年而且这种趋势在可以预见的将来将继续下去。因此,单位体积的介质内所能存储的信息量,或者说在一定费用下能够通过邮政系统传送的信息量将遵从摩尔定律的速度呈指数增长。另一方面广域互联网带宽的增长受限于诸多因素,例如光纤的铺设速度。这些因素注定了广域网带宽的增长速度要慢得多。而且,从互联网干线到最终用户的接入布线的费用高得惊人,其进展速度也十分缓慢。所以实际上,上述两种传输方法的带宽差距非但不是暂时现象,还会随着介质存储密度的持续快速增长而不断加大。

像通过邮政系统运送存储介质这样的通讯渠道有着巨大的带宽,但它也有着长达数天但却相对固定的延迟。我们称这样的通讯渠道为HLHB(高延迟高带宽)的信道。同时我们称传统的互联网连接为LLLB(低延迟低带宽)的信道。除了在单个信道的带宽方面具有优势外,HLHB信道还有其他方面的优势。其中之一就是能够得到更高的总带宽:互联网中的总带宽受限于诸如其主干带宽这样的因素,而HLHB信道由于相互之间比较独立,所以更容易用增加新的信道的方法来取得高的总带宽。HLHB信道的另一个潜在优势是它的低费用。充分利用这些HLHB信道对于偏远的或发展中的地区来说尤其重要,因为要在这些地区建立起高速连线的基础设施还需要很漫长的时间。当然,正如我们之前已经说过的,对HLHB信道的利用即使是在发达地区也是很有必要的。

使用HLHB信道来传送数字内容并不是一个新想法。AOL.comnetflix.com这样的公司已经开始大规模使用邮政系统来递送软件和电影有一段时间了。其中,尚未被考虑到因而有待于我们来解决的问题包括:(1)怎样整合HLHB信道、LLLB信道以及本地存储,使之成为一个协调一致的分布式存储系统?(2) 怎样提供交互性?

 

5.1.1 “信息下载”

在此,“信息下载”指的是教学内容从远端的教师到学生的传送。(我们将在5.1.4节考虑“信息上传”和交互性。) 让我们考虑图1所示的例子。假设有一堂在前几个学期已经教过了的课现在要被重新教授。由于它已经被教过了,所以大多数课堂材料已经存在于学校的本地硬盘中(如图1中的数据块1所示)

现在假定老师认为需要替换现有教案中一个两分钟左右的片段,或许是因为原来的片段做得不够好,或许是因为需要对它进行修改以适应当前的情况。这样的调整是一个好老师总会想着要做的,它也是富有创造性的教学过程的有机组成部分。这两分钟的片段足够小,所以我们可以用互联网来传送(如图1中的数据块2所示)。传送要提早足够多的时间开始以保证在孩子们上包含该片段的那堂课之前能够完成。

老师也可以选择传送一个长达两小时的新片段,其中可以包括新的内容或者是对学生作业情况的反馈。由于数据量较大,数据可以被存放于移动存储设备并通过邮政系统来传送(如图1中的数据块3所示)。当然,还可以有其它类型的“信息下载”渠道。图1中也给出了另外一种可能的渠道:收音机或电视广播,它们可以传输模拟或数字编码的内容(如图1中的数据块4所示)。而且,移动存储设备并不一定要由邮政系统来负责运送,它们可以由个人携带并相互共享。我们系统的一个目标就是要把所有这些散布的设备"编织"成一个有机完整的系统[16,17,20]

5.1.2 手工管理的复杂性

乍看起来,对多种信道的同时应用似乎很简单,一个教职员应该可以应付自如,但实际情况则要复杂得多。

比如,如果我们简单地将整堂课存成一个大的视频文件,要确认并替换其中一个两分钟的片段将是难以操作的。所以我们需要一大批可以被重新组合,重新排列并且可以灵活替换的细粒度的数据单元。手工管理这些数据单元并不容易。在完全手工管理的情况下,当老师创作一批新的数据单元时,她需要为这些数据单元分配一些有意义的名字;她需要决定用哪些信道来传输数据;她需要为数据单元的接收方准备相应的指示;她需要手工将数据拷贝到移动存储设备上;她需要关心数据是否已经到达目的地以及何时到达;她需要处理数据在运输过程中丢失的情况。

当数据到达后,接收方的人员需要解读相关指示以知道如何对数据进行处理,需要安排送回确认消息,需要手工将数据从收到的移动存储设备中拷贝出来,需要考虑由邮政系统送来的多个移动存储设备之间是否次序颠倒,需要考虑来自互联网的数据和来自邮政系统的数据之间是否次序颠倒,最后需要负责回答来自远端老师的关于某些数据是否到达的询问。只有当接收方人员和远端的老师一致认为所有的数据都已正确就位,他们才可以开始预定的授课。而在授课过程中,也许又会有新的更多的调整,从而更多的新数据需要被传送,这又要求更多的手工管理工作。显然,所有这些对手工管理的要求将极大地限制我们从多种通讯渠道中所能获得的好处。

5.1.3 针对多信道的异步分布式存储系统

我们提议建立的存储系统的一个目标就是要将几乎所有上述的手工任务自动化。有了这个系统,一位远端的老师可以简单地为已有的课程制作新片段而无须担心对新片段的命名。她也许需要给系统一些提示:譬如她预期在将来的什么时候远端的学生要用到该片段。

老师不必担心要选择哪些信道来满足她的要求;系统会根据数据量大小和时间的充裕程度自动选择。事实上,系统可以选择同时使用多种信道:它也许会准备一个低分辨率的版本在LLLB信道上传送,同时在HLHB信道上传送高分辨率的版本。两个版本互相“赛跑”从而在数据质量和数据可及性之间取得某种平衡。如果互联网正处于高负荷状态,系统需要仔细考虑什么数据需要优先通过互联网来传送以及以什么样的分辨率来进行传送。看这个问题的一种方法是把互联网看成是邮政系统的高速缓存。系统还可以选择通过邮政系统传送数据的多个副本(在时间上相互间隔)以增加数据可靠性。

老师不需要手工发起任何通讯。如果要使用互联网,系统将自动启动网络。如果要使用邮政系统,老师不需要记住什么数据需要被拷贝到移动存储设备上,也不需要进行手工复制。在一天的工作之后,系统会自动准备好包含新内容的移动磁盘。如果有多位老师同时创作新内容,系统自动从这些老师那里收集新内容并拷贝到单个移动存储设备上(收集过程可以使用一个高速的局域网)

在一天的最后,一个邮递员会定期来将需要交付的移动存储设备取走。事实上,数据的复制并不一定要等到每天的末尾,而是可以在一天中的任何时候在后台进行,这样我们可以避免将所有费时的数据复制都集中到邮递员快要到达的时候。我们同时注意到由于存储设备的容量相对较大,只要有足够时间进行复制,系统可以相当自由地决定需拷贝的数据。例如,即使一个数据片段只有非常小的机会会最终被学生用到,对它同样进行拷贝也不会有什么害处。通过HLHB信道来取得低延迟听起来也许有点匪夷所思,但是由于学生可以以比访问互联网更快的速度来访问移动存储设备上的数据,所以低延迟实际上是可能的(只要邮政系统的延迟能够被恰当地隐藏)。我们存储系统的一项重要原则就是要利用盈余资源(存储容量)来克服由缺稀资源(广域网带宽)造成的限制。

一旦传输在一个或多个通讯信道中被启动后,老师不需要监控其进程。邮政系统能够提供包裹追踪服务,从而方便了系统的自动化进程监控。如果发送方在一定时间内没有(通过互联网)收到接收方的确认消息,它可以采取以下几种可能的措施。如果移动存储设备在邮递过程中被丢失了,同时离数据被使用还有足够的时间,系统可以简单地将数据重新拷贝到一个新的移动存储设备由邮递员在下次来的时候取走从而完成“重传”。如果剩下的时间不够进行邮政系统的“重传”,系统可以选择通过互联网传送一个分辨率较低的版本。如果上述所有补救措施都不适用,老师会接到一个通知。老师可以据此作出选择:或者调整上课时间以便有足够的时间进行重传,或者跳过新的数据片段而根据旧的教案进行授课。

不管哪个信道被使用,数据到达的时候接收方的人员只需极少的手工干预。这对于通过互联网到达的数据是十分直接了当的,数据的到达将自动触发确认消息通过互联网送回。如果数据是存在移动存储设备上由邮政系统送达的,接收方人员所要做的只是将新近到达的存储设备“接入系统”。如果存储设备是DVD,则只需将它插入DVD光驱。如果存储设备是象Microdrive这样的小磁盘,接收方人员需要学会使用一个转接器将其接入系统。在所有情况中,将存储设备“接入”系统应自动触发一段代码的执行从而完成一定的任务。任务之一是给发送方送确认消息(该消息可以通过互联网来传送)。(现在发送方的老师知道她的授课已经一切准备就绪。) 其他任务可以是将数据从移动存储设备上拷贝到由学校维护的一个本地存储中。被触发的任务还可以是把批改好的作业打印出来以便发还给学生,或者是自动安排在第二天进行作业讲评。

同时需要注意的是,并不是一定要将新数据从移动存储设备拷贝到本地存储后才可以使用。如果需要新数据的一堂课马上就要开始了,没有足够时间来进行拷贝,数据可以直接从移动存储设备中读取。事实上,在远端的老师可能在送出移动磁盘后又做了一些新的内容变动。这些最新内容可能在原来的移动磁盘到达之前就通过互联网送达了,现在移动磁盘上的一些内容就过时了。或者,一些最新内容可能存于另一个移动存储设备,并先于原来的移动磁盘到达(邮政系统并不保证包裹按序邮递)。系统必须小心地避免浪费时间来拷贝过时的数据。再或者,一些最新内容可能仍然存在远端的老师的计算机上。又或者,一个新近到达的存储设备上可能包含有重复的数据(由于积极复制或过早重传)。

上述的许多问题,如重传,处理传输过程中的次序颠倒,排除重复数据,并且尽量减少数据拷贝等等,都与传统通讯网络中的问题有相似之处。但是,由于我们的系统利用移动存储设备来传递信息,存储系统和通讯网络之间的界限变得模糊了。我们系统中一个“数据包”的延迟和数据量可以比传统网络的大几个数量级。所以我们研究的问题不仅是一个网络问题,更是一个分布式存储系统的问题。最新的数据可能散布在一定数量的设备中:学校的本地存储,一个动态的“数据转发中心”(参见第5.2节),最近到达的移动存储设备,甚至远端老师的计算机。当要讲授基于这些散布的数据的课程时,系统需要“知道”所有这些片段的位置以便能够象拼七巧板一样把它们组织在一起而无须将全部片段完全复制到一个地方。

系统需要解决的另一个问题是安全性问题。例如,当一张移动磁盘由邮政系统送达时,我们需要能够肯定(1)数据来自我们认可的发送者;(2)发送者无法伪造身分;(3)数据未被窜改。如果有必要的话,本系统的一个通用版本可以有更为宽松的数据接收政策,例如, “垃圾邮件”(spam)将被允许但给予较低的处理优先级。由于发送者必须支付邮政系统来传递他的邮件,所以无节制的“垃圾邮件”不大可能成为一个问题。

以上提到的通讯主要是基于发送方的,其它的利用多信道的通讯模式也是可能的。例如,考虑下述关于异步“读取”的实现。读取请求通过互联网(或其它一些渠道)传输。收到该请求后,如果要求的数据量很大,该请求会自动触发所要求的数据被拷贝到一个移动存储