無標題文檔

我们的繁体用户怎么办?

今天遇到的这件事情让我感到无奈,甚至是羞辱。

作为淘宝的员工,也偶尔在淘宝处理我的闲置物品,这种既为开发人员又是用户的双重身份让人颇具有玩味。

卖了件闲置物品给在香港的同胞,什么都聊好的情况下,照常打开「我的淘宝」查看发货信息,傻眼了。

https://friable.rocks/_/2009_11_05/027227b188aa.jpg

这到好,连码都不用打了,买家的收货信息基本属于「火星文」,手动更换了页面的编码信息,问题还是依旧。回头再联系此买家,发现那家伙下线了,看来只能周一再沟通了。

正如本文开头所说的,我甚至感到羞辱。

羞的是我们众多的开发、测试人员历练了每个产品的每项功能,连基本的字符编码都没有处理好。

辱的是在淘宝那么长时间、经历了那么多的项目,发现我们竟然忽略了繁体版的用户。

回想起来,繁体中文用户使用淘宝其实很不容易,首先他们使用支付宝必须要有张大陆的人民币结算卡,然后他们的系统必须安装简体中文的语言包。

还有阿里旺旺,从 我们的下载页面 中可以得知有繁体版,但让人困扰的是繁体版与简体版的下载链接是同样的,我不知道这位用户下载的文件是否和我的一致。

周一我必须要做两件事情,一件就是询问此买家的收货地址,并说明延迟发货的原因;另外件,就是向我们的开发人员提个醒,我们需要更慎重的测试繁体版的功能。

无论怎么说,这种事情都不希望再次发生。这次卖给我们的香港同胞虽是偶然,但毕竟每天是他们在使用繁体中文。

连基本的信息传递都无法完成,那么所谓的用户体验更是无从谈起。

-- Split --

感谢各位以及 Solidot 等的关注,但我明显感到了来自不同方向的压力。评论中的很多朋友都指出了目前线上的诸多问题,我也逐一的汇报给了个产品线的负责人,但这里显然不是汇报 Bug 的地方。

所以,请允许我冒昧得将此篇文章的评论关闭,并谢绝任何形式的转载阿里的信条之一就是「客户第一」 ,因此我们有理由相信这一情况会逐渐改善的。

PHP Tokenizer 学习笔记

简述

在某个项目中需要分析 PHP 代码,分离出对应的函数调用(以及源代码对应的位置)。虽然这使用正则也可以实现,但无论从效率还是代码复杂度方面考虑,这都不是最优的方式。

查询了 PHP 手册,发现其实 PHP 已经内置解析器的接口,那就是 PHP Tokenizer ,这工具正是我想要的。使用 PHP Tokenizer 能简单、高效、准确的分析出 PHP 源代码的组成。

实例

官方站点对 Tokenizer 的文档很少,不过这不影响我们理解它。Tokenizer 组件仅仅包含两个函数: token_get_all 以及 token_name ,它们分别用于分析 PHP 代码以及获取代码对应的标识符名称。

下面是个简单的实例,说明如何使用这两个函数:

$code = '<?php echo "string1"."string2"; ?>';
$tokens = token_get_all($code);
foreach ($tokens as $token) {
    if (is_array($token)) {
        // 行号、标识符字面量、对应内容
        printf("%d - %s\t%s\n", $token[2], token_name($token[0]), $token[1]);
    }
}

对应的输出为

1 - T_OPEN_TAG    <?php 
1 - T_ECHO    echo
1 - T_WHITESPACE     
1 - T_CONSTANT_ENCAPSED_STRING    "string1"
1 - T_CONSTANT_ENCAPSED_STRING    "string2"
1 - T_WHITESPACE     
1 - T_CLOSE_TAG    ?>

这里顺便说明下,$token 如果为数组,那么分别对应的三个数组成员为 token 标识符(可以用 token_name 获得字面量)、对应的源代码内容、以及对应的行号。

还有中情况就是 $token 为字符串,这可能的情况之一就是为 T_CONSTANT_ENCAPSED_STRING 等常量,在分析代码时要注意。如果对这点很在意,可以考虑使用 这里的代码

是的,调用方式非常的简单,我们的野心当然远远要比写个简单的循环要大得多。我们可以利用这个组件做写实事,例如下面的代码用于「压缩」 PHP 代码,去除不不要的换行、空白以及注释

/**
 * 「压缩」PHP 源代码
 *
 * @see http://c7y.phparch.com/c/entry/1/art,practical_uses_tokenizer
 */
class CompactCode
{
    static protected $out;
    static protected $tokens;

    static public function compact($source)
    {
        // 解析 PHP 源代码
        self::$tokens = token_get_all($source);   
        self::$out = '';

        reset(self::$tokens);

        // 递归判断每个标记符的类型
        while ($t = current(self::$tokens)) {
            if (is_array($t)) {
                // 过滤空白、注释
                if ($t[0] == T_WHITESPACE || $t[0] == T_DOC_COMMENT || $t[0] == T_COMMENT) {
                    self::skipWhiteAndComments();
                    continue;
                }       
                self::$out .= $t[1];
            } else {
                self::$out .= $t;
            }

            next(self::$tokens);
        }

        return self::$out;
    }

    static private function skipWhiteAndComments()
    {
        // 增加个空格,用于分割关键字
        self::$out .= ' ';
        while ($t = current(self::$tokens)) {
            // 再次贪婪查找
            if (is_array($t) && ($t[0] == T_WHITESPACE || $t[0] == T_DOC_COMMENT || $t[0] == T_COMMENT)) {
                next(self::$tokens);
            } else {
                return;
            }
        }
    }
}

调用方式很简单,只需要使用

CompactCode::compact($source_code);

即可,返回的字符串就是压缩以后的内容。在这里还有更多使用 Tokenizer 的实例, 推荐阅读

PHP SPL,遗落的宝石

Rafael Dohms 上面的篇文章 让我惊艳了下,忍不住就翻译了下来,同时补充了部分内容。

SPL,PHP 标准库(Standard PHP Library) ,此从 PHP 5.0 起内置的组件和接口,并且从 PHP5.3 已逐渐的成熟。SPL 其实在所有的 PHP5 开发环境中被内置,同时无需任何设置。

似乎众多的 PHP 开发人员基本没有使用它,甚至闻所未闻。究其原因,可以追述到它那阳春白雪般的说明文档,使你忽略了「它的存在」。

SPL 这块宝石犹如铁达尼的「海洋之心」般,被沉入海底。而现在它应该被我们捞起,并将它穿戴在应有的位置 ,而这也是这篇文章所要表述的观点。

那么,SPL 提供了什么?

SPL 对 PHP 引擎进行了扩展,例如 ArrayAccess、Countable 和 SeekableIterator 等接口,它们用于以数组形式操作对象。同时,你还可以使用 RecursiveIterator、ArrayObejcts 等其他迭代器进行数据的迭代操作。

它还内置几个的对象例如 Exceptions、SplObserver、Spltorage 以及 spl_autoload_register、spl_classes、iterator_apply 等的帮助函数(helper functions),用于重载对应的功能。

这些工具聚合在一起就好比是把多功能的瑞士军刀,善用它们可以从质上提升 PHP 的代码效率。那么,我们如何发挥它的威力?

重载 autoloader

如果你是位「教科书式的程序员」,那么你保证了解如何使用 __autoload 去代替 includes/requires 操作惰性载入对应的类,对不?

但久之,你会发现你已经陷入了困境,首先是你要保证你的类文件必须在指定的文件路径中,例如在 Zend 框架中你必须使用「_」来分割类、方法名称(你如何解决这一问题?)。

另外的一个问题,就是当项目变得越来越复杂, __autoload 内的逻辑也会变得相应的复杂。到最后,甚至你会加入异常判断,以及将所有的载入类的逻辑如数写到其中。

大家都知道「鸡蛋不能放到一个篮子中」,利用 SPL 可以分离 __autoload 的载入逻辑。只需要写个你自己的 autoload 函数,然后利用 SPL 提供的函数重载它。

例如上述 Zend 框架的问题,你可以重载 Zend loader 对应的方法,如果它没有找到对应的类,那么就使用你先前定义的函数。

<?php
class MyLoader {
    public static function doAutoload($class) {
        // 本模块对应的 autoload 操作
    }
}

spl_autoload_register( array('MyLoader', 'doAutoload') );

正如你所见, spl_autoload_register 还能以数组的形式加入多个载入逻辑。同时,你还可以利用 spl_autoload_unregister 移除已经不再需要的载入逻辑,这功能总会用到的。

迭代器

迭代是常见设计模式之一,普遍应用于一组数据中的统一的遍历操作。可以毫不夸张的说,SPL 提供了所有你需要的对应数据类型的迭代器。

有个非常好的案例就是遍历目录。常规的做法就是使用 scandir ,然后跳过「.「 和 「..」,以及其它未满足条件的文件。例如你需要遍历个某个目录抽取其中的图片文件,就需要判断是否是 jpg、gif 结尾。

下面的代码就是使用 SPL 的迭代器执行上述递归寻找指定目录中的图片文件的例子:

<?php
class RecursiveFileFilterIterator extends FilterIterator {
    // 满足条件的扩展名
    protected $ext = array('jpg','gif');

    /**
     * 提供 $path 并生成对应的目录迭代器
     */
    public function __construct($path) {
        parent::__construct(new RecursiveIteratorIterator(new RecursiveDirectoryIterator($path)));
    }

    /**
     * 检查文件扩展名是否满足条件
     */
    public function accept() {
        $item = $this->getInnerIterator();
        if ($item->isFile() && 
                in_array(pathinfo($item->getFilename(), PATHINFO_EXTENSION), $this->ext)) {
            return TRUE;
        }
    }
}

// 实例化
foreach (new RecursiveFileFilterIterator('/path/to/something') as $item) {
    echo $item . PHP_EOL;
}

你可能会说,这不是花了更多的代码去办同一件事情吗?那么,查看上面的代码,你不是拥有了具有高度重用而且可以测试的代码了吗 :^)

下面是 SPL 提供的其他的迭代器:

  • RecursiveIterator
  • RecursiveIteratorIterator
  • OuterIterator
  • IteratorIterator
  • FilterIterator
  • RecursiveFilterIterator
  • ParentIterator
  • SeekableIterator
  • LimitIterator
  • GlobIterator
  • CachingIterator
  • RecursiveCachingIterator
  • NoRewindIterator
  • AppendIterator
  • RecursiveIteratorIterator
  • InfiniteIterator
  • RegexIterator
  • RecursiveRegexIterator
  • EmptyIterator
  • RecursiveTreeIterator
  • ArrayIterator

自 PHP5.3 开始,会内置其他更多的迭代器,我想你都可以尝试下,或许它能改变你编写传统代码的习惯。

SplFixedArray

SPL 还内置了一系列的数组操作工具,例如可以使用 SplFixedArray 实例化一个固定长度的数组。那么为什么要使用它?因为它更快,甚至它关系着你的工资问题 :^)

我们知道 PHP 常规的数组包含不同类型的键,例如数字、字符串等,并且长度是可变的。正是因为这些「高级功能」,PHP 以散列(hash)的方式通过键得到对应的值 -- 其实这在特定情况这会造成性能问题。

而 SplFixedArray 因为是使用固定的数字键,所以它并没有使用散列存储方式。不确切的说,甚至你可以认为它就是个 C 数组。这就是为什么 SplFixedArray 会比通常数组要快的原因(仅在 PHP5.3 中)。

那到底有多快呢,下面的组数据可以让你窥其究竟。

https://friable.rocks/_/2009_11_05/02539798505b.jpg

更详细的评测可以参考这里 ,如果你需要大量的数组操作,那么你可以尝试下,相信它是值得信赖的。

数据结构

同时 SPL 还提供了些数据结构基本类型的实现 。虽然我们可以使用传统的变量类型来描述数据结构,例如用数组来描述堆栈(Strack)-- 然后使用对应的方式 pop 和 push(array_pop()、array_push()),但你得时刻小心,·因为毕竟它们不是专门用于描述数据结构的 -- 一次误操作就有可能破坏该堆栈。

SPL 的 SplStack 对象则严格以堆栈的形式描述数据,并提供对应的方法。同时,这样的代码应该也能理解它在操作堆栈而非某个数组,从而能让你的同伴更好的理解相应的代码,并且它更快。

最后,可能上述那些惨白的例子还不足矣「诱惑你」去使用 SPL。实践出真知,SPL 更多、更强大的功能需要你自己去挖掘。而它正如宝石般的慢慢雕砌,才能散发光辉。

PS,有关 SPL 详细的中文文档, 阮一峰同学这里有份更详细的笔记 ,推荐。

-- EOF --

我的照片

嗨!我叫「明城」,八零后、码农、宁波佬,现居杭州。除了这里,同时也欢迎您关注我的 GitHubTwitterInstagram 等。

这个 Blog 原先的名字叫 Gracecode.com 、现在叫 「無標題文檔」 。 要知道作为码农取名是件很难的事情,所以不想在取名这事情上太费心思。

作为八零后,自认为还仅存点点可能不怎么被理解的幽默感,以及对平淡生活的追求和向往。 为了避免不必要的麻烦,声明本站所输出的内容以及观点仅代表个人,不代表自己所服务公司或组织的任何立场。

如果您想联系我,可以发我邮件 `echo bWluZ2NoZW5nQG91dGxvb2suY29tCg== | base64 -d`

分类

搜索

文章