创建一个双语博客I,一些想法

虽然这两篇文章中的一些想法和方法主要是为了说明和演示关于建立一个双语博客,但是它们也应该能够适用于创建一个多语言的博客或一般的网站;当然,除了那些在这里只适用于WordPress的一些工具和插件。

如果你在阅读这篇文章,那么,我肯定你已经对创建一个双语博客的想法有一些兴趣了。但是,你是否认真地想过到底你脑海里的“双语博客”是一个什么样子的呢?我问这个问题的原因是:也许创建一个双语博客的激励显而易见,那就是能够扩大你的博客的目标读者群进而提高你的博客获得更多的浏览率的机会;但是“双语博客”这个概念本身可能就不那么显而易见了。

Ok,我似乎已经听到屏幕另一边传来的声音了:“什么?一个双语博客不就是提供用户两种不同的语言吗?这还有什么神秘的?”

是的,在一定程度上,你是对的,而且我同意关于这一点并没有什么神秘性。我所想说的只是:你必须认真地考虑一下一些问题,因为这是任何一个严肃的站长应该做的。

你想为你的用户提供高质量的内容吗?或者,你只是为了想提高访问量而提供多于一种的语言?
你想你的用户可以实时的改变他们使用的语言吗?或者,你是希望你的用户可以他们自己设置他们喜欢的语言,然后,不论他们什么时候回到你的网页来都能总是显示他们已经选择的语言?
什么是你的真正的原因提供一个双语言的网站呢?这是因为你能够为更多的人提供你的信息或服务么?还是因为你真的想遇到那些不是说你的母语的人们?
你确实拥有关于你准备提供的另外一种语言的知识吗?你对你的网站内容的质量准备管理吗?怎样管理?
……

我希望我的这些问题没有把你吓住。正如你所看见的,对于这些问题的不同回答,会造成两个不同的双语博客之间的差异非常大。如果你知识想提供两种语言,而不在意你选择的第二种语言的内容的质量,那么,你可以就使用自动机器翻译的文字(对于你的网站的界面和内容都是这样),你甚至可以完全不认识那个语言。如果你只是关心你的网站的界面,比如导航链接,菜单,按钮这些东西,那么你可以只是翻译或本地化这些,而留着你的内容文字(不管它是使用哪一种语言)。但是我想一个“真正的”双语博客应该同时顾及到这两个方面(实时的改变使用的语言和同时本地化界面与内容),加上质量控制。作为一个严肃的站长,你不仅仅想要本地化用户使用的界面,而且要提供两个语言版本的内容;并且,更进一步地,你应该保证你的内容有一定水平的质量——就是说,你不能100%的依赖于机器翻译,你必须最小化你的第二语言内容里的错误。

所以,一个双语博客有这样的三个方面应该被思考和实施:界面,内容,以及灵活性。

界面
对界面的翻译基本上和做“软件本地化”的过程一样。因为,一个网站实际上就是一种特殊的应用软件(即称作,Web 应用),所以这两件事情实际上是同一回事。你如果已经开发出了一套软件,等到那一天你想到需要扩展你的目标地域的客户群的时候,你第一件事所想到的就是为你新的目标地域的客户本地化你的软件。这里,软件本地化的概念除了软件的界面外基本上不涉及其他东西。因为,除此之外没有东西需要也不能本地化。那Windows来说,Windows XP的英文版和Windows XP的简体中文版有两个不同的界面(菜单,按钮,文档,等等),但是他们都是拥有同样的特征,功能和管理系统的方法。一加一总是等于二,不管你在世界的那个地方:) 。

然而,在网络世界,内容相对来说更加重要。所以,基本上,就有一个另外对于内容的本地化的问题(这将会在下面马上被讨论)。但是,这个问题看起来可以完全与“软件的本地化”分开,因为什么内容将会上传到网页上不是取决于程序员们而完全在于网站的所有者。所以,以下这一点就非常的不奇怪了:如今如此众多的网站系统或所谓的内容管理系统都只是考虑到了界面上的多语言支持。即使许多官方的插件——一个插件就是一组特殊的,仅仅只有通过特定的方式安装到这个系统之后才能运行的程序代码——也被认为如果能够提供多语言的支持和切换就算完成了任务。

为了得到不同的语言,你还必须有用一个被称为语言文件,或被有些软件称作语言包的东西。你可以通过自己的翻译或使用一些工具来得到这些语言文件。如果你决定自己做翻译,这意味着你必须逐个地翻译用户界面中地每一个词,也许还加上文档;而且,你所能得到的帮助是特别的有限的,如果你不使用一些专门的工具和方法的话。有些软件,比如drupal(请访问 drupal.org)确实给你提供了一些方面的方式,但是更加容易和更加好的方法是找到一些已经被其他人翻译好的语言文件。除非你觉得所有的东西都你自己干(显然这是非常劳累的),你可以找到那些语言文件,然后你可以用一些特殊的工具编辑或修改它。当你满了你的语言文件后,一般情况下你需要把语言文件放到你的文件系统的一个特殊位置。接下来,如果你的博客设置正确了,你就已经拥有一个双语博客可以准备运行了。在大多数情况下,你将拥有一些设置在你的网站的控制面板之下,你可以再那里设置好你的网站使用的语言;一个更好的解决方式是拥有一个选择的菜单在你的网站网页上,这样用户可以自己选择他们喜欢的语言(更多关于灵活性的讨论在下面)。

内容
翻译你的网站的内容实际上才是你的真正的工作,和你的博客没有两种语言的时候是一样的。如果你对这个很认真,你应该确保你的内容的质量在一个很好的水平上。这意味着,你将不会直接使用自动通过机器翻译的文字。然而,这不是意味着你不可以使用它们来帮助你完成更好的翻译工作,即使你觉得你是一个非常好的使用双语的人,一个方便的“字典”总是一个很好的助手。大多数免费的机器自动翻译服务都是被一些大的互联网公司提供的,比如Google的语言工具,Yahoo的babelfish;或者是由其他一些专门的语言翻译服务提供商所提供,比如由PROMT Ltd(e-promt.com)提供的translation2.paralink.com。值得提到的一点是,有些这样的提供者还提供一些软件和网页工具,你可以直接在你的网页上面调用他们的服务以将你的整个网站瞬间翻译成你的目标语言;有些甚至开放它们的API接口,允许程序员开发一些插件来使用它们的服务。我必须强调,我不是说这些服务不值得使用,我只是觉得现阶段的技术还没有达到这样一个高的水平一致使机器翻译的文字非常的精确,特别是在翻译一整篇文章的时候(我自己甚至在翻译一整句话的时候都很少使用它们);我个人的观点认为,你最好只把它们当作字典来使用。

我还有一个技术上的原因以致是我使用机器翻译非常的小心。我想在这里把我考虑的这个原因分享一下:事实是,那些通过机器翻译的文本是在服务提供商的服务器上翻译的,然后,它们才被传送到我们Web站点的服务器的网页上。所以,那些最终的翻译结果的文本并不是从我们的Web应用的数据库里,也不是从我们Web服务上的本地文件里,得到的;并且它们一般也不会被存储进我们的数据库或Web服务器上的本地文件系统。如果我们有一种这样的工具,它能够捕捉到这些被机器翻译过来的文字并把它们存到数据库里,然后,给网站的作者或编辑提供修改使用这些文字的机会……你不觉得这也许是一个值得的功能,这样的话有可能我们会使用那些在线的免费翻译更平常,而且用它们做一些比较重要的事情?

非常有趣的是,在qucikonlinetips.com上正好也有一篇文章关于人工翻译和机器翻译的:Human Translators Superior to Automatic Blog Translations:

After installing the Global wordpress translation plugin, I have been subjected to constant Forbidden 403 Errors on all the translated pages. Though caching is essential to reduce the load on these translation services and prevent your blog from being blocked as spam, even 24 hours caching failed to work and a few pages that worked…

这段话的大意是:在安装了Global wordpress翻译插件后,在所有的翻译的页面上,我得到常见的403禁止访问错误。虽然缓存机制(caching)对于减缓那些翻译服务的服务器的资源使用和避免你的博客由于恶意泛滥使用(spam)而被封掉,即使长达24小时的缓存也不能正常工作而且仅有的一些正常显示的网页(上也是一些完全没有意义的翻译)……

当然,这篇文章除了谈论这个403错误外,也讨论了一些关于多语言博客的其他方面的问题,包括机器翻译的准确性的问题。你可以到这篇文章去了解一下详细的情况。

不过怎样,我的主要意旨是你应该自己提供不同的语言版本的内容。你可以做这个通过“一对一”的方式,就是说,对应每一个博客的文章,你都提供两个语言的版本。或者,当然,你可以不通过“一对一”的方式,但是记得要给用户提供一个友好的消息,比方说“对不起,这篇文章目前还没有被请求的语言的版本”。基本的目的就是对于你的博客要有质量控制。为了达到这一点,我想你一定要有对于你将要添加到你的博客的语言有足够的知识。

灵活性
在“软件本地化”的历史上,有一个非常“严重”的问题至今仍对本地化软件工组有强烈的影响。这个问题是,将翻译过的字符串硬写入(hard code)软件的源代码里。所以,在现实中,一些软件能够在它初始开发的语言平台上运行但是却不能在其他语言平台上正常工作。比方说,以前简体中文版的Windows 95就是使用一个叫做“代码页”来定义它使用的字符集,就是,GB2312;而英文版的Windows却只需要ISO-8859-1定义的字符集;然后你会发现一些中文版的软件能够在中文版的操作系统下运行但是却不能在英文版的操作系统下运行或者能够运行也是一堆乱码。相似的经历也可在Web上找到(是的,即使在今天所谓的Web2.0时代)。只要试几个不同的Web站点,改变一下你的浏览器的字符集编码选项,我肯定你所发现的结果会使你惊讶的。引起这种情况的主要原因是,在以前,没有一个统一的字符集系统可以囊括我们这个星球上所有使用的语言的字符,所以每一个国家和地区都开发了自己的标准字符集。这种情况一直没有被解决直到Unicode(统一编码字符集)的出现。使用Unicode,你可以包括进所有语言的字符还有更多。以前,软件仅仅通过一个鼠标点击就能在不同的语言界面之间切换的想法比较难得实现,但是现在,这种机制只是一个通常的共识了。今天,不使用Unicode的软件意味着缺乏灵活性;不使用UTF-8字符编码的网站意味着在未来的某天总会出现问题。

请注意:这不是一篇专门讨论字符编码的文章,所以关于代码页,字符集和Unicode的概念不会详细的在这里解释。如果你对这个感兴趣,我推荐你阅读SitePoint.com上的一篇文章:The Definitive Guide to Web Character Encoding

一个双语博客的灵活性方面不仅仅只在于你有一个可以让你的用户改变他们使用的语言环境功能,也在于你应该在只要“应该”提供这种方便的地方提供这这种选项。这是什么意思呢?这是说,如果你有一个页面或一篇文章有两种不同的语言,那么你也应该同样地提供一个能在两种语言版本之间切换的选择按钮或链接;同样的道理,如果你有两种不同语言的RSS新闻、用户的评论等等。只提供一个整个站点的的语言选择功能是基本的但是不是足够的。更加好的做法是你能提供一个方式,让你的注册的用户可以在他们自己的用户帐号管理界面里设置他们所喜爱的语言,而你的网站可以记住每个用户的语言选择。但是由于大多数的博客都是个人博客,而且用户也许并不需要通过注册才能发表评论(但是并不能发表和编辑文章),所以你的博客也许并不需要进一步的复杂的用户帐号管理面板——像那些社区论坛或大的CMS站点一样。

好的,我希望你现在已经对什么是一个双语博客有一个比较清楚的认识了。理论已经足够了!在第二部分,我们将开始实际地创建一个双语博客,使用WordPress 2.1.3。

No Comments - Leave a comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*