精品国产综合区久久久久久,日韩一区二区三区精品视频 ,久久精品一区蜜桃臀影院

中文数字

Jeff Lau — Fri, 21 Dec 2007 15:09:00 GMT

摘要�Q�以中文的�Ş式表�C�数字，在开具发��、收据的时候经常用刎ͼ��其在金融领域。但数字的中文表�C�和其它语言有很大的不同�Q�如中文以每4个数�?�?��Z��个小的分隔�?本文以测试驱动开发的�Ҏ��Q�开发该功能。本�E�序只是用表�C�整数的中文形式�Q�很�Ҏ��扩展到long形式和表�C�Z�h民币货币的表�C��Ş式�?/p>

作者：Jeff 发表于：2006-12-02 08:12 最后更��C��Q?2007�q?2�?1�?23:10
版权声明�Q�可以�Q意�{载，转蝲时请务必以超链接形式标明文章原始出处和作者信息及本版权声�?/a>�?br>http://www.aygfsteel.com/jeff-lau/archive/2007/12/21/169466.html

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.test;

import org.junit.Assert;
import org.junit.Test;

import chinese.utility.ChineseNumber;

public class ChinesNumberFormatter {

    /**
     * 单个数字 0--9
     */
    @Test
    public void testSingleLower() {
        Assert.assertEquals("�?, new ChineseNumber(0).lower());
        Assert.assertEquals("�?, new ChineseNumber(5).lower());
    }
    /**
     * 10--99
     */
    @Test
    public void test2BitLower() {
        Assert.assertEquals("六十�?, new ChineseNumber(68).lower());
        Assert.assertEquals("八十", new ChineseNumber(80).lower());
    }

    /**
     * 100--999
     */
    @Test
    public void test3BitLower() {
        Assert.assertEquals("五百零八", new ChineseNumber(508).lower());
        Assert.assertEquals("八百", new ChineseNumber(800).lower());
    }

    /**
     * 1000--9999
     */
    @Test
    public void test4BitLower() {
        Assert.assertEquals("一千零�?, new ChineseNumber(1008).lower());
        Assert.assertEquals("一千零八十", new ChineseNumber(1080).lower());

    }
    /**
     * > 9999
     */
    @Test
    public void test5BitLower() {
        Assert.assertEquals("三十万零八千", new ChineseNumber(308000).lower());
        Assert.assertEquals("三十万零八百", new ChineseNumber(300800).lower());
    }
    /**
     * �~�写和大写一��h��
     */
    @Test
    public void testAbbriation() {
        Assert.assertEquals("拾捌", new ChineseNumber(18, true).upper());
    }

}

��试

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility;

public class ChineseNumber {

private static final int RADIX = 10;

    private static final String[] LOWER_UNIT = { "", "�?, "�?, "�?, "�?, "�?,
            "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�? };
    private String[] LOWER = { "�?, "一", "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�? };

    private static final String[] UPPER_UNIT = { "", "�?, "�?, "�?, "�?, "�?,
            "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�? };
    private String[] UPPER = { "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�?, "�? };

private int number;
private boolean abbreviation;

    public ChineseNumber(int number, boolean isShort) {
        this.number = number;
        this.abbreviation = isShort;
    }

    public ChineseNumber(int number) {
        this(number, false);
    }

    public String lower() {
        return format(LOWER, LOWER_UNIT);
    }
    public String upper() {
        return format(UPPER, UPPER_UNIT);
    }
    private String format(final String[] chinese, final String[] unit) {
        if (number == 0) {
            return chinese[number];
        }

        if (abbreviation == true && canAbbreviate(number)) {
            return formatShort(chinese, unit);
        }
        String result = "";

        int leftNumber = number;
        int rightNumber = 0;
        int currentNumber = 0;
        int bit = 0;
        while (leftNumber > 0) {
            rightNumber = currentNumber;
            currentNumber = leftNumber % RADIX;
            leftNumber = leftNumber / RADIX;

            if (currentNumber > 0) {
                result = chinese[currentNumber] + unit[bit] + result;
            } else if (rightNumber > 0) {
                result = chinese[currentNumber] + result;
            }

            if (bit % 4 == 0 && currentNumber == 0) {
                result = unit[bit] + result;
            }

bit++;
}

return result;

}

    /**
     * �~�写 18 �?十八 �?拾捌
     */
    private String formatShort(String[] chinese, String[] unit) {
        return unit[1] + chinese[number % RADIX];
    }

    /**
     * 能否�~�写
     */
    private boolean canAbbreviate(int number2) {
        if (number2 >= 9 && number2 <= 19) {
            return true;
        }
        return false;
    }

}

Jeff Lau 2007-12-21 23:09 发表评论

中文排序

Jeff Lau — Fri, 21 Dec 2007 03:29:00 GMT

摘要�Q�在Java中，对一个数�l�或列表(在本文中�l�称为集�?中的元素排序�Q�是一个很�l�常的事情。好在Sun公司在Java库中实现了大部分功能。如果集合中的元素实��C��Comparable接口�Q�调用Array或Collections的静�?static)�Ҏ��sort�Q�就可以直接寚w��合排序。程序员用不同的方式实现了Comparator接口�Q�就可以用各自不同的方式排序。对于包含汉字的字符串来��_��排序的方式主要有两种�Q�一�U�是拼音�Q�一�U�是�W�画。本文就讲述如何实现�q�两�U�不同的比较�?Comparator)�?/p>

作者：Jeff 发表于：2007�q?2�?1�?11:27 最后更��C��Q?2007�q?2�?1�?12:38
版权声明�Q�可以�Q意�{载，转蝲时请务必以超链接形式标明文章原始出处和作者信息及本版权声�?/a>�?br>http://www.aygfsteel.com/jeff-lau/archive/2007/12/21/169257.html

排序概述

在Java中，对一个数�l�或列表(在本文中�l�称为集�?中的元素排序�Q�是一个很�l�常的事情。好在Sun公司在Java库中实现了大部分功能。如果集合中的元素实��C��Comparable接口�Q�调用以下的静�?static)�Ҏ��Q�就可以直接寚w��合排序�?/p>

// 数组排序�Ҏ��
// 数组中的元素可以是像int�q�样的原生类�?primitive type), 也可以是像String�q�样实现了Comparable接口的类型，�q�里用type表示�?
java.util.Arrays.sort(type[] a);

// 列表
public static void sort(List list)

以上的这些排序方式能满��大部分应用。但集合中的元素没有实现Comparable接口�Q�或者集合中的元素要按一�U�特别的方式排序�Q�这要怎么办？Sun公司早就惛_��了，�q�在Java库中提供上面两个�Ҏ��的重载�?/p>

// 数组排序�Ҏ��?br>// 数组中的元素可以是像int�q�样的原生类�?primitive type), 也可以是像String�q�样实现了Comparable接口的类型，�q�里用type表示�?
public static void sort(T[] a, Comparator c)

// 列表
public static void sort(List list, Comparator c)

只要实现了Comparator接口�Q�就可以按程序员自己的意思去排序了。对于包含汉字的字符串来��_��排序的方式主要有两种�Q�一�U�是拼音�Q�一�U�是�W�画。汉字是通过一定的�~�码方式存储在计��机上的�Q�主要的�~�码有：Unicdoe、GB2312和GBK�{��?/p>

Unicode �~�码中的汉字

Unicode中编码表分�ؓ两块�Q�一个是基本的，一个是辅助的。现在的大多数操作系�l�还不支持Unicode中辅助区域中的文字，如WinXp�?/p>

在Java中的字符��是Unicode码表�C�的。对于Unicode基本区域中的文字�Q�用两个字节的内存存储，用一个char表示�Q�而辅助区域中的文字用4个字节存储，因此辅助区域中的��p��用两个char来表�C�Z��(表一�U�蓝色底��是辅助区域中的文字)。一个文字的unicode�~�码�Q�在Java中统一用codePoint(代码�?�q�个概念�?/p>

中文和日文、韩文一��h��表意文字�Q�在Unicode中，中日韩三�?东亚地区)的文字是�l�一�~�码的。CJK代表的就是中日韩。在�q�里�Q�我把这3中文字，都作为汉字处理了�?日语和韩语可能就是从汉语中衍生的吧！)

汉字在Unicode中的分布大致如下表：

	首字�~�码	��֭��~�码	个数
基本汉字	U4E00	U9FBF	20928
异性字	UF900	UFAFF	512
扩展A	U3400	U4D8F	512
扩展B	U20000	U2A6DF	42720
补充	U2F800	U2FA1F	544
其他			...

表一

在这些编码区��_��有些�~�码是保留的�?/p>

GB2312�~�码

GB2312是中华�h民共和国最早的计算机汉字编码方式。大概有6000多个汉字�Q�这些汉字是按拼音顺序编码的。这6000多个汉字都是��体中文字�?/p>

GBK�~�码

GB2312的扩展，�q�兼容GB2312。扩展后的汉字大概有2万多个，其中有简体汉字也有繁体汉字�?/p>

拼音排序

拼音有好几种方式�Q�其中最主要的是中华人民共和国的汉语拼音 Chinese Phonetic。对汉字的排序有两种�Q�一�U�是宽松的，能够按拼��x��序最常用的汉字，另一�U�是严格的，能够按拼��x��序绝大部分大部分汉字�?/p>

宽松的拼��x��序法

原理�Q�汉字最早是GB2312�~�码�Q�收录了六千多个汉字�Q�是按拼��x��序的�Q�编码是�q�箋的�?后来出现了GBK�~�码�Q�对GB2312�q�行了扩展，��C��两万多汉字，�q�且兼容GB2312�Q�也��是说GB2312中的汉字�~�码是原��不动搬到GBK中的(在GBK�~�码中[B0-D7]��Z��)�?/p>

如果我们只关心这6000多个汉字的顺序，��可以用下面的方法实现汉字宽松排序�?/p>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br>*/

package chinese.utility;

import java.text.Collator;
import java.util.Comparator;
import java.util.Locale;

public class PinyinSimpleComparator implements Comparator {
    public int compare(String o1, String o2) {
        return Collator.getInstance(Locale.CHINESE).compare(o1, o2);
    }
}

在对[�? �? �? ��? �? �? �? �? �? �?怡]�q�几个汉字排序，�l�果是：[�? �? �? �? �? �? �? ��? �? �? 怡]。最后一�?strong> �?/strong> 有问题，不该排在最后的�?

注意�Q�这个程序有两个不��

�׃��gb2312中的汉字�~�码是连�l�的�Q�因此新增加的汉字不可能再按照拼音顺序插入到已有的gb2312�~�码中，所以新增加的汉字不是按拼音��序排的�?
同音字比较的�l�果不等�? �?

下面的测试代码可以证�?/p>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br>*/

/**
* 非常用字(�?
*/
@Test
public void testNoneCommon() {
Assert.assertTrue(comparator.compare("�?, "�?) > 0);
}

/**
* 同音�?br>*/
@Test
public void testSameSound() {
Assert.assertTrue(comparator.compare("�?, "�?) != 0);
}

严格的拼��x��序法

��Z��解决宽松的拼音的两点不��Q�可以通过实现汉语拼音的函数来解决。goolge下看到sf上有个pinyin4j的项目，可以解决�q�个问题�Q�pinyin4j的项目地址是：http://pinyin4j.sourceforge.net/�?/p>

实现代码�Q?/p>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility;

import java.util.Comparator;
import net.sourceforge.pinyin4j.PinyinHelper;

public class PinyinComparator implements Comparator {

public int compare(String o1, String o2) {

for (int i = 0; i < o1.length() && i < o2.length(); i++) {

int codePoint1 = o1.charAt(i);
int codePoint2 = o2.charAt(i);

            if (Character.isSupplementaryCodePoint(codePoint1)
                    || Character.isSupplementaryCodePoint(codePoint2)) {
                i++;
            }

            if (codePoint1 != codePoint2) {
                if (Character.isSupplementaryCodePoint(codePoint1)
                        || Character.isSupplementaryCodePoint(codePoint2)) {
                    return codePoint1 - codePoint2;
                }

String pinyin1 = pinyin((char) codePoint1);
String pinyin2 = pinyin((char) codePoint2);

                if (pinyin1 != null && pinyin2 != null) { // 两个字符都是汉字
                    if (!pinyin1.equals(pinyin2)) {
                        return pinyin1.compareTo(pinyin2);
                    }
                } else {
                    return codePoint1 - codePoint2;
                }
            }
        }
        return o1.length() - o2.length();
    }

    /**
     * 字符的拼韻I��多音字就得到�W�一个拼韟뀂不是汉字，��return null�?br>     */
    private String pinyin(char c) {
        String[] pinyins = PinyinHelper.toHanyuPinyinStringArray(c);
        if (pinyins == null) {
            return null;
        }
        return pinyins[0];
    }
}

��试�Q?/p>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.test;

import java.util.Comparator;

import org.junit.Assert;
import org.junit.Test;

import chinese.utility.PinyinComparator;

public class PinyinComparatorTest {

private Comparator comparator = new PinyinComparator();

    /**
     * 常用�?br>     */
    @Test
    public void testCommon() {
        Assert.assertTrue(comparator.compare("�?, "�?) < 0);
    }

    /**
     * 不同长度
     */
    @Test
    public void testDifferentLength() {
        Assert.assertTrue(comparator.compare("他奶奶的", "他奶奶的�?) < 0);
    }

    /**
     * 和非汉字比较
     */
    @Test
    public void testNoneChinese() {
        Assert.assertTrue(comparator.compare("a", "�?) < 0);
        Assert.assertTrue(comparator.compare("1", "�?) < 0);
    }

    /**
     * 非常用字(�?
     */
    @Test
    public void testNoneCommon() {
        Assert.assertTrue(comparator.compare("�?, "�?) < 0);
    }

    /**
     * 同音�?br>     */
    @Test
    public void testSameSound() {
        Assert.assertTrue(comparator.compare("�?, "�?) == 0);
    }

    /**
     * 多音�?�?
     */
    @Test
    public void testMultiSound() {
        Assert.assertTrue(comparator.compare("曄��", "曾��_") > 0);
    }

}

我的�q�样严格的拼��x��序还是有有待改进的地方，看上面测试代码的最后一个测试，��׃��发现�Q�程序不会根据语境来判断多音字的拼音�Q�仅仅是��单的取多韛_��的第一个拼韟�?/p>

�W�画排序

要按�W�画排序�Q�就要实现笔��L��较器�?/p>

class StokeComparator implements Comparator

如果有个�Ҏ��可以求得汉字的笔��L��Q�上面的功能��很�Ҏ��实现。如何求一个汉字的�W�画敎ͼ�最�Ҏ��惛_��的就是查表法。徏一个汉字笔��L��表，如：

汉字	Unicode�~�码	�W�画�?/td>
一	U4E00	1
�?/td>	U4E8C	2
�?/td>	U9F8D	16
...	...	...

表二

如果是连�l�的、按unicode�~�码排好��序的表�Q�实际存储在�W�画数表中的只需最后一列就够了�?/p>

那如何徏�q�个表呢�Q�这个表存储在哪里？

建汉字笔��L��?/h2>
现在大多数系�l�还只能支持Unicode中的基本汉字那部分汉字，�~�码从U9FA6-U9FBF。所以我们只��部分汉字的笔画表。汉字笔��L��表，我们可以按照下面的方法生成：

用java�E�序生成一个文本文�?Chinese.csv)。包括所有的从U9FA6-U9FBF的字�W�的�~�码和文字。利用excel的按�W�画排序功能�Q�对Chinese.csv文�g中的内容排序�?
�~�写Java�E�序分析Chinese.csv文�g�Q�求得笔��L��, 生成ChineseStroke.csv。矫正笔��L��Q�重新按汉字的Unicode�~�码对ChineseStroke.csv文�g排序�?
只保留ChineseStroke.csv文�g的最后一列，生成Stroke.csv�?

在这�?a href="http://www.aygfsteel.com/Files/jeff-lau/Stroke.zip" target="_blank">下蝲上面3个步骤生成的3个文�?/a>�?/p>

生成Chinese.csv的Java�E�序

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.preface;

import java.io.IOException;
import java.io.PrintWriter;

public class ChineseCoder {

    public static void main(String[] args) throws IOException {
        PrintWriter out = new PrintWriter("Chinese.csv");
        // 基本汉字
        for(char c = 0x4E00; c <= 0x9FA5; c++) {
            out.println((int)c + "," + c);
        }
        out.flush();
        out.close();

}

初始化笔��L��

从Excel排序�q�后的Chinese.csv文�g来看�Q�排好序的文件还是有一定规律的。在文�g的第9�?12行可以看出：逐行扫描的时候，当unicode会变��了�Q�笔��L��也就�?�?/p>

20059,�?br>20101,�?br>19969,�?br>19970,�?/p>

用下面的Java�E�序分析吧�?/p>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.preface;

import java.io.File;
import java.io.IOException;
import java.io.PrintWriter;
import java.util.Scanner;

public class Stroke {

    /**
     * @param args
     * @throws IOException
     */
    public static void main(String[] args) throws IOException {
        Scanner in = new Scanner(new File("Chinese.csv"));
        PrintWriter out = new PrintWriter("ChineseStroke.csv");
        String oldLine = "999999";
        int stroke = 0;
        while (in.hasNextLine()) {
            String line = in.nextLine();
            if (line.compareTo(oldLine) < 0) {
                stroke++;
            }
            oldLine = line;
            out.println(line + "," + stroke);
        }
        out.flush();
        out.close();
        in.close();
    }

}

上面用的�q�个规律有问题吗�Q�有问题�Q�从ChineseStroke.csv文�g抽取最后几个汉字就发现�Q�笔��L��不对。�ؓ什么呢�Q?/p>

�W�画数可能不是连�l�的�?
n+1�W�画数的最��Unicode码可能比n�W�画数的最大Unicode码要�?

我们要�h工核对ChineseStroke文�g�Q�但只要核对在笔��d��化的那几个汉字的�W�画数。最后，我发玎ͼ�只有�W�画数多�?0的少数几个汉字的�W�画��C��寏V��核对�ƈ矫正�W�画数后�Q�用Excel按Unicode重新排序�Q�去掉汉字和Unicode两列�Q�只保留�W�画数那列，得到Stroke.csv文�g�?/p>

求得�W�画数的�Ҏ��和笔��L��较器�Ҏ��

求得�W�画数的�Ҏ��试代码�Q?

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.test;

import static org.junit.Assert.assertEquals;

import org.junit.Before;
import org.junit.Test;
import chinese.utility.Chinese;

public class StrokeTest {

Chinese chinese;

    @Before
    public void setUp() {
        chinese = new Chinese();
    }

    @Test
    public void testStroke() {
        assertEquals(1, chinese.stroke('一'));
    }

    @Test
    public void testStroke2() {
        assertEquals(2, chinese.stroke('�?));
    }

    @Test
    public void testStroke16() {
        assertEquals(16, chinese.stroke('�?));
    }

    @Test
    public void testStrokeABC() {
        assertEquals(-1, chinese.stroke('a'));
    }

}

求得�W�画数的�Ҏ��代码

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility;

import java.util.Comparator;

public class StrokeComparator implements Comparator {

public int compare(String o1, String o2) {

Chinese chinese = new Chinese();

        for (int i = 0; i < o1.length() && i < o2.length(); i++) {
            int codePoint1 = o1.codePointAt(i);
            int codePoint2 = o2.codePointAt(i);
            if (codePoint1 == codePoint2)
                continue;

int stroke1 = chinese.stroke(codePoint1);
int stroke2 = chinese.stroke(codePoint2);

            if (stroke1 < 0 || stroke2 < 0) {
                return codePoint1 - codePoint2;
            }

            if (stroke1 != stroke2) {
                return stroke1 - stroke2;
            }
        }

return o1.length() - o2.length();
}
}

�W�画比较器测�?/h3>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.test;

import java.util.Comparator;

import org.junit.Assert;
import org.junit.Before;
import org.junit.Test;

import chinese.utility.StrokeComparator;

public class StrokeComparatorTest {

    private Comparator comparator;
    @Before
    public void setUp() {
        comparator = new StrokeComparator();
    }

    /**
     * 相同�W�画�?br>     */
    @Test
    public void testCompareEquals() {
        Assert.assertTrue(comparator.compare("一", "�?) == 0);
    }
    /**
     * 不同�W�画�?br>     */
    @Test
    public void testCompare() {
        Assert.assertTrue(comparator.compare("一", "�?) < 0);
        Assert.assertTrue(comparator.compare("�?, "�?) > 0);
    }
    /**
     * 长度不同
     */
    @Test
    public void testCompareDefficultLength() {
        Assert.assertTrue(comparator.compare("�?, "二一") < 0);
    }
    /**
     * 非汉字的比较
     */
    @Test
    public void testABC() {
        Assert.assertTrue(comparator.compare("一", "a") > 0);
        Assert.assertTrue(comparator.compare("a", "b") < 0);
    }
}

�W�画比较�?

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility.test;

import java.util.Comparator;

import org.junit.Assert;
import org.junit.Before;
import org.junit.Test;

import chinese.utility.StrokeComparator;

public class StrokeComparatorTest {

    private Comparator comparator;
    @Before
    public void setUp() {
        comparator = new StrokeComparator();
    }

    /**
     * 相同�W�画�?br>     */
    @Test
    public void testCompareEquals() {
        Assert.assertTrue(comparator.compare("一", "�?) == 0);
    }
    /**
     * 不同�W�画�?br>     */
    @Test
    public void testCompare() {
        Assert.assertTrue(comparator.compare("一", "�?) < 0);
        Assert.assertTrue(comparator.compare("�?, "�?) > 0);
    }
    /**
     * 长度不同
     */
    @Test
    public void testCompareDefficultLength() {
        Assert.assertTrue(comparator.compare("�?, "二一") < 0);
    }
    /**
     * 非汉字的比较
     */
    @Test
    public void testABC() {
        Assert.assertTrue(comparator.compare("一", "a") > 0);
        Assert.assertTrue(comparator.compare("a", "b") < 0);
    }
}

其他�E�序的汉字排�?/h1>
Microsoft在这斚w��做得比较好。如Sql server 2000�Q�Word和Excel都能按拼韛_��W�画排序。而Oracle只能是采取宽松拼��x��序法�?

Jeff Lau 2007-12-21 11:29 发表评论

中文排序 �Q?�W�画

Jeff Lau — Thu, 20 Dec 2007 12:39:00 GMT

摘要�Q�在很多中文书籍的作者页中，有很多作者的话，很多时候，是按作者姓名的�W�画��序排序的。Microsoft的Excel和Sql Server实现了按�W�画排序的功能。那按笔画顺序排序，在Java中究竟怎样实现呢？

作者：Jeff 发表于：2007-12-20 20:39 最后更��C��Q?2007�q?2�?1�?12:17
版权声明�Q�可以�Q意�{载，转蝲时请务必以超链接形式标明文章原始出处和作者信息及本版权声�?/a>�?br>http://www.aygfsteel.com/jeff-lau/archive/2007/12/20/169147.html

合�ƈ�?/h1>
已经��?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/20/169147.html">中文排序--�W�画》和�?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/19/168637.html">中文排序--汉语拼音》修改�ƈ合�ƈ�?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/21/169257.html">中文排序》中。这里只保留最后的代码。实现的原理和方法请�?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/21/169257.html">中文排序

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility;

import java.util.Comparator;

public class StrokeComparator implements Comparator {

    public int compare(String o1, String o2) {

        Chinese chinese = new Chinese();

        for (int i = 0; i < o1.length() && i < o2.length(); i++) {
            int codePoint1 = o1.codePointAt(i);
            int codePoint2 = o2.codePointAt(i);
            if (codePoint1 == codePoint2)
                continue;

            int stroke1 = chinese.stroke(codePoint1);
            int stroke2 = chinese.stroke(codePoint2);

            if (stroke1 < 0 || stroke2 < 0) {
                return codePoint1 - codePoint2;
            }

            if (stroke1 != stroke2) {
                return stroke1 - stroke2;
            }
        }

        return o1.length() - o2.length();
    }
}

Jeff Lau 2007-12-20 20:39 发表评论

中文排序 �Q?汉语拼音

Jeff Lau — Wed, 19 Dec 2007 00:30:00 GMT

摘要�Q�中文一般都是按拼音来排序的。但Java中的String�c�L��按Unicode�~�码存储数据的，因此�Q�String�c�M��是按Unicode�~�码的大��来排序的。Sun公司提供一个Collator�c�L��重新按不同的规则对字�W�串排序�Q�但Collator对中文的排序方式只是不严格的拼音排序法。Microsoft的Excel和Sql Server实现了按拼音排序的功能，��比Collator实现的好多了。那如何在Java中实现类似Microsoft的拼��x��序的方式呢？

作者：Jeff 发表于：2007-12-19 08:30 最后更��C��Q?2007�q?2�?1�?12:33
版权声明�Q�可以�Q意�{载，转蝲时请务必以超链接形式标明文章原始出处和作者信息及本版权声�?/a>�?br>http://www.aygfsteel.com/jeff-lau/archive/2007/12/19/168637.html

合�ƈ�?/h1>
已经��?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/20/169147.html">中文排序--�W�画》和�?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/19/168637.html">中文排序--汉语拼音》修改�ƈ合�ƈ�?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/21/169257.html">中文排序》中。这里只保留最后的代码。实现的原理和方法请�?a href="http://www.aygfsteel.com/jeff-lau/archive/2007/12/21/169257.html">中文排序�?/p>

/**
* @author Jeff
*
* Copyright (c) 复制或�{载本文，请保留该注释�?br> */
package chinese.utility;

import java.util.Comparator;
import net.sourceforge.pinyin4j.PinyinHelper;

public class PinyinComparator implements Comparator {

    public int compare(String o1, String o2) {

        for (int i = 0; i < o1.length() && i < o2.length(); i++) {

            int codePoint1 = o1.charAt(i);
            int codePoint2 = o2.charAt(i);

            if (Character.isSupplementaryCodePoint(codePoint1)
                    || Character.isSupplementaryCodePoint(codePoint2)) {
                i++;
            }

            if (codePoint1 != codePoint2) {
                if (Character.isSupplementaryCodePoint(codePoint1)
                        || Character.isSupplementaryCodePoint(codePoint2)) {
                    return codePoint1 - codePoint2;
                }

                String pinyin1 = pinyin((char) codePoint1);
                String pinyin2 = pinyin((char) codePoint2);

                if (pinyin1 != null && pinyin2 != null) { // 两个字符都是汉字
                    if (!pinyin1.equals(pinyin2)) {
                        return pinyin1.compareTo(pinyin2);
                    }
                } else {
                    return codePoint1 - codePoint2;
                }
            }
        }
        return o1.length() - o2.length();
    }

    /**
     * 字符的拼韻I��多音字就得到�W�一个拼韟뀂不是汉字，��return null�?br>     */
    private String pinyin(char c) {
        String[] pinyins = PinyinHelper.toHanyuPinyinStringArray(c);
        if (pinyins == null) {
            return null;
        }
        return pinyins[0];
    }
}

Jeff Lau 2007-12-19 08:30 发表评论

跟老刘学Java (一)

Jeff Lau — Tue, 18 Dec 2007 20:48:00 GMT

老刘是个Java高手了，��刘是个Java菜鸟�Q�最�q�小刘跟着老刘开始学Java。你问我�Q�小刘和老刘什么关�p�？也许他们是兄妹吧。小刘是个MM啊，�Ҏ��亮吗�Q�QQ��h��多少�Q�MSN呢……闲话少��_��a�归正传�?/p>

(��刘走向正在玩电脑的老刘�w�边)

��刘�Q�老刘�Q?��刘一直都是这么称��D��刘�?。教我学Java吧！

老刘�Q�好�Q?对于��刘的要求，老刘从没拒绝�q?

��刘�Q�可我对Java什么都不会�Q?/p>

老刘�Q�有我在�Q�一切都没问题！(在小刘面前，老刘��d��Ƣ吹嘘�?我们先装个Java开发运行环境吧�?/p>

��刘�Q�好呢！

老刘�Q�我们先到Sun公司的网站下载一个JDK。JDK��是用来开发Java的工兗��?/p>

��刘�Q�Sun�Q�就是天上的那个太阳啊！原来Java是太阛_��司的啊！

老刘�Q�基本上可以�q�么说。其他公�怹�有JDK产品。比如：IBM�?/p>

��刘�Q�IBM我知道。被我国的联惛_��司收购了嘛！

老刘�Q?轻轻�W�了一�?�Q�就是那个IBM。不�q�联惛_��收购了IBM的一个部门而已�?/p>

(��刘在老刘的指��g��Q�从SUN�|�站下蝲一个最新的JDK�Q�现在正在下载中…�?

��刘�Q�刚才在SUN�|�站�Q�我看到有个Java SE, Java EE,�q�有个…�?/p>

老刘�Q�还有Java ME。这是Java��Z��同的�q�行环境准备�?�U�不同版本，他们用的都是Java语言�Q�学好Java语言��p��开�?�U�不同应用程序了(Java在这3�U�版本除了��用的Java的语法相同外�Q�还有很多很多不同的东西要掌握，才能不同完成开发工作，��Z��不打��d��刘学习的�U�极性，把SUN蒙�h的那套也用上�?。Java SE是Java的标准版�Q�Java ME是用于手��Y件开发的�Q�Java EE是用于企业应用开发，比如�|�站啊�?/p>

��刘�Q�Java�q�能建网站。我学会Java�Q�就能用Java��Z��个自己漂亮的个�h�|�站了�?托着下巴�Q��Ԓ着头开始遐想了…�?

老刘�Q?�?******�Q��\途遥�q�着�?那就先学好Java吧�?/p>

(��刘回到现实�Q�老刘�l�箋解释)

老刘�Q�Java SE可以说其他版本的基础。我们就学Java SE。现在最新的Java SE�?.0�Q�下载页面在http://java.sun.com/javase/downloads/index.jsp�?/p>

(电脑提示�Q�下载成功了)

老刘�Q�现在安装吧�?strong>注意�Q�Java的默认目录是C:\Program Files\..., 最好不要把Java带有�I�格的�\径中�?/strong>我们安装在D:\java目录中吧。Java SE安装包中�Q�除了JDK�Q�还有JRE。装好JDK后，会提�C�Z��是否安装JRE�Q�我们一起安装了吧�?/p>

��刘�Q�什么是JRE�Q?/p>

老刘�Q�JRE��是Java�q�行环境。如果你只想�q�行Java�E�序�Q�就不用安装JDK�Q�只需要安装一个JRE��够了。现在安装好了。我们来写第一个全世界最有名的程序：HelloWorld�?/p>

(老刘用记事本创徏下面一个文�Ӟ��HelloWorld.java)

public class HelloWorld { public static void main(String[] args) { System.out.println("Hello World!"); } }

(老刘打开命��o�H�口�Q�输入：javac HelloWorld.java。电脑显�C�：'javac' 不是内部或外部命令，也不是可�q�行的程序或批处理文件�?

老刘�Q�我们的电脑是WinXP�pȝ��Q�和Win2000一��P��都是WinNT�pȝ��的。设�|�一下环境变量，��p��正常�~�译了�?/p>

老刘通过点击我的电脑 --> 属�?--> 高�� --> 环境变量打开了环境变量设�|�对话框。在�pȝ��变量中加�?/p>

JAVA_HOME=D:\java (新徏�?

path=%JAVA_HOME%\bin; (�q�加在path变量最前面)

(老刘再次打开命��o�H�口�Q�输入：javac HelloWorld.java。正�怺�。输入：java HelloWorld。电脑显�C�Hello World!)

老刘�Q�先休息一下。等会儿你自��q��我刚才那��P��写一个HelloWorld.java文�g�Q��ƈ�~�译和运行它�?/p>

��刘�Q�好的�?/p>

(��刘是个好学的菜鸟，不休息就开始她的第一个Java�E�序了…�?

(HelloWorld.java虽然��单短��，�_�心的小刘也输错了。在�~�译的时候出来了一堆错误，在老刘的帮助下�Q�一一�Ҏ��了这些错误。运行成功的时候，��刘高兴的蟩了�v来。觉得自己已�l�是Java高手了。高兴过后，��刘满心疑问…�?

��刘�Q�老刘�Q�这些代码中的单词都什么意思？

老刘�Q�这么，明天再讲吧！

Jeff Lau 2007-12-19 04:48 发表评论

精品国产综合区久久久久久,日韩一区二区三区精品视频 ,久久精品一区蜜桃臀影院

中文数字

中文排序

排序概述

Unicode �~�码中的汉字

GB2312�~�码

GBK�~�码

拼音排序

宽松的拼��x��序法

严格的拼��x��序法

�W�画排序

生成Chinese.csv的Java�E�序

初始化笔��L��

求得�W�画数的�Ҏ��和笔��L��较器�Ҏ��

求得�W�画数的�Ҏ�����试代码�Q?

求得�W�画数的�Ҏ��代码

�W�画比较�?

其他�E�序的汉字排�?/h1> Microsoft在这斚w��做得比较好。如Sql server 2000�Q�Word和Excel都能按拼韛_���W�画排序。而Oracle只能是采取宽松拼��x��序法�?Jeff Lau 2007-12-21 11:29 发表评论

中文排序 �Q?�W�画

中文排序 �Q?汉语拼音

跟老刘学Java (一)

求得�W�画数的�Ҏ��试代码�Q?

其他�E�序的汉字排�?/h1>
Microsoft在这斚w��做得比较好。如Sql server 2000�Q�Word和Excel都能按拼韛_��W�画排序。而Oracle只能是采取宽松拼��x��序法�?

Jeff Lau 2007-12-21 11:29 发表评论