深思 PHP 数组遍历的差异(array_diff 的实现)

作者:手气不错 发布时间:December 21, 2007 分类:PHP

还是部门无聊的考题,不过这次考的是 PHP 的能力。题目如下:

给你两个分别有 5000 个元素的数组,计算他们的差集
  -- 说白了也就是用 PHP 和你认为最好的算法实现 array_diff 的算法。

初次接到这个题目,我发现这非常的简单,于是按照以往的经验“随便”写了一个:

function array_diff($array_1, $array_2) {
    $diff = array();

    foreach ($array_1 as $k => $v1) {
        $flag = false;
        foreach ($array_2 as $v2) {
            if ($flag = ($v1 == $v2)) {
                break;
            }
        }

        if (!$flag) {
            $diff[$k] = $v1;
        }
    }

    return $diff;
}

虽然实现是可以的,但是发现这个函数的效率是惨不忍睹。于是我又重新考虑了下,并优化了算法,第二个函数看起来是这个样子的:

function array_diff($array_1, $array_2) {
    foreach ($array_1 as $key => $item) {
        if (in_array($item, $array_2, true)) {
            unset($array_1[$key]);
        }
    }

    return $array_1;
}

嗯,这次几乎可以和原 array_diff 函数的速度媲美了。但是还有没有更优化的办法呢?由 ChinaUnix 上的一篇文章(不好意思,作弊了),我发现 PHP 竟然可以这样写:

function array_diff($array_1, $array_2) {
    $array_2 = array_flip($array_2);
    foreach ($array_1 as $key => $item) {
        if (isset($array_2[$item])) {
            unset($array_1[$key]);
        }
     }

    return $array_1;
}

这个函数的效率非常的惊人,甚至比原 array_diff 函数的速度都要快。究其原因,我找到了解释:

因为键是进行 HASH 组织的,查找很快;
而 Value 只是由 Key 组织存放,本身没有索引,每次查找都是遍历。

总结

这虽然是 PHP 语言的一个小窍门,但在遍历和对比数组的值上,如果需要对比值将其与键反转的确比通常的值对值的比较效率要高得多。

比如,上面的函数二需要调用 in_array 函数需要循环判断是否在函数内;而函数三则仅仅判断这个数组是否存在该键就可以了。加上数组键和值不同的组织索引方式,效率比想象的还高那就非常可以理解了。

附,测试连接在这里打包下载)。如对 Javascript 数组方面的讨论感兴趣,可以点击这里

已有 4 条回复

  1. 心如水流 December 27th, 2007 at 12:11 am #1
    心如水流

    手册上关于array_diff例子如下:



    [Copy to clipboard] [ - ]

    CODE:

    <?php

    $array1 = array("a" => "green", "red", "blue", "red");

    $array2 = array("b" => "green", "yellow", "red");

    $result = array_diff($array1, $array2);



    print_r($result);

    ?>



    在 $array1 中多次出现的值一样处理,输出结果为:



    Array

    (

    [1] => blue

    )



    LZ所写的情况和此函数好像不太一样,如果两数组的Key不一样,值不一样的话,所谓的比原array_diff快是没法对比的吧.应该和array_diff_key对比下性能.

  2. 手气不错 December 27th, 2007 at 12:41 am #2
    手气不错

    @心如水流 嗯,的确有这样的问题,不过那个“该死的题目”就是要求是一维数组:



    array(1,2,3,4,5)



    带有 Key 的数组就需要采用不同的算法了,有空我完善一下吧,感谢兄弟的回复。

  3. cnangel February 12th, 2008 at 11:50 pm #3
    cnangel

    如果同一个值出现了多次,则最后一个键名将作为它的值,所有其它的都丢失了。

  4. Cherry November 17th, 2009 at 06:25 pm #4
    Cherry

    认真的拜读了你的PHP栏目(几乎第一篇),很有价值啊,非常希望能和你做个链接,不为PR,想交个朋友!到现在为止我还是新手。

Yahoo 统计