1.汉字的输入编码 为了能直接使用西文标准键盘把汉字输入到计算机,就必须为汉字设计相应的输入编码方法。当前采用的方法主要有以下三类: 数字编码 常用的是国标区位码,用数字串代表一个汉字输入。区位码是将国家标准局公布的6763个两级汉字分为94个区,每个区分94位,实际上把汉字表示成二维数组,每个汉字在数组中的下标就是区位码。区码和位码各两位十进制数字,因此输入一个汉字需按键四次。
数字编码输入的优点是无重码,且输入码与内部编码的转换比较方便,缺点是代码难以记忆。
拼音码 拼音码是以汉字拼音为基础的输入方法。使用简单方便,但汉字同音字太多,输入重码率很高,同音字选择影响了输入速度。
字形编码 字形编码是用汉字的形状来进行的编码。把汉字的笔划部件用字母或数字进行编码,按笔划的顺序依次输入,就能表示一个汉字。
为了加快输入速度,在上述方法基础上,发展了词组输入\联想输入等多种快速输入方法。但是都利用了键盘进行“手动”输入。理想的输入方式是利用语音或图象识别技术“自动”将拼音或文本输入到计算机内,使计算机能认识汉字,听懂汉语,并将其自动转换为机内代码表示。目前这种理想已经成为现实。
2.汉字内码 汉字内码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。英文字符的机内代码是七位的ASCII码,当用一个字节表示时,最高位为“0”。为了与英文字符能相互区别,汉字机内代码中两个字节的最高位均规定为“1”。
注意:有些系统中字节的最高位用于奇偶校验位,这种情况下用三个字节表示汉字内码。
3.汉字字模码 字模码是用点阵表示的汉字字形代码,它是汉字的输出形式。
根据汉字输出的要求不同,点阵的多少也不同。字模点阵的信息量很大,所占存储空间也很大。因此字模点阵只能用来构成汉字库,而不能用于机内存储。字库中存储了每个汉字的点阵代码。当显示输出或打印输出时才检索字库,输出字模点阵,得到字形。
图2.1 汉字的字模点阵及编码
注意,汉字的输入编码、汉字内码、字模码是计算机中用于输入、内部处理、输出三种不同用途的编码,不要混为一谈。
机内码 国标码:是指我国1981年公布的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB2312-80”。
由连续的两个字节组成。 2.机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码 3.输入码:汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
4.字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。目的是为了能显示和打印汉字。
(1)区位码先转换成十六进制数表示 (2)(区位码的十六进制表示)+2020H=国标码; (3)国标码+8080H=机内码 汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。
汉字区位码的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混淆。为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),还需与基本ASCII码中的字符相区别。
为了实现这两点,可以先在区码和位码分别加上20H,在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表示一个汉字需要占两个字节,分别 称为高位字节和低位字节,这两位字节的机内码按如下规则表示: 高位字节=区码+20H+80H(或区码+A0H) 低位字节=位码+20H+80H(或位码+AOH) 由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。
例如,汉字“啊”的区位码为1601,区码和位码分别用十六进制表示即为1001H,它的机内码的高位字节为B0H,低位字节为A1H,机内码就是B0A1H。 2603 = 1A03H 区位码 + A0A0H = BAA3H 机内码 汉字的编码知识 信息编码各国有各国不同的编码,国际上统一使用的编码为ASCII(美国标准信息交换代码),我国使用的有国标码BG(中文),和BIG5(中文繁体)两种。
附带要知道:中文字库(字库文件名,大小,扩展名,存放位置) 中文输入方法(语音输入,键盘输入,手写输入,扫描输入等) 1.汉字的编码 (1)国标码:是指我国1980年公布的“信息交换汉字编码字符集”,代号为“GB2312-80”。由连续的两个字节组成。
(2)机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码。 (3)输入码:汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
(4)字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。目的是为了能显示和打印汉字。
编码的转换举例 汉字 区位码 16进制 国标码 机内码 文 4636 2E24H 4E44H CEC4H “文”的区位码为4636,区码和位码分别用16进制表示即为“2E24H”, 0010 1110 0010 0100转换成国标码“4E44H”,0100 1110 0100 0100机内码为“CEC4H”, 1100 1110 1100 0100 2.汉字的输入方法 汉字输入方法目前有两大类四种。 (1)键盘输入法。
这是最常用的,利用各种汉字输入方法的编码敲击键盘来输入汉字; (2)非键盘输入法。目前主要有三种方法。
手写笔输入法:利用汉字识别技术,通过书写笔在感应板上书写汉字把其输入的方法。 语音输入法:利用语音识别技术,通过口说来输入汉字。
扫描识别输入,是将印或写在纸上的汉字通过扫描仪输入计算机,再经相应软件处理后转换成汉字机内码。 3.汉字字符集的概念 有两种汉字字符集。
(1)国标码字符集GB2312-80:该字符集收录了6763个常用汉字,其中一级汉字3755个,二级汉字3008个。另外还收录了各种符号682个,合计7445个。
(2)GBK汉字集:GBK即汉字扩充内码规范,又称大字符集,一共收录了20900个汉字。在Windows简体中文版中,又增加了101个补充字,一共有21001个字。
它包容了GB2312-80的6763个常用汉字,台湾BIG5码收录了13000多个汉字,是目前见到的收录汉字最多的汉字系统。
584,5682177778,12234.1798,76868.587129955,829475我发誓,我要抱你一起去吹吹风,与你爱相随。
一起走吧,去溜哒溜哒。我不介意你久久吻我,被爱就是幸福。
1部: 1240最爱是你; 1314一生一世; 1372一厢情愿; 1314925一生一世就爱我; 1392010一生就爱你一个; 1414意思意思; 147一世情; 1573一往情深; 1711一心一意; 2部: 200爱你哦; 20160爱你一万年; 20184爱你一辈子; 2037为你伤心; 20475爱你是幸福; 20609爱你到永久; 20863爱你到来生; 230爱上你; 246饿死了; 246437爱是如此神奇; 20910爱我久一点; 259695爱我就了解我; 259758爱我就娶我吧; 2627爱来爱去; 282饿不饿; 296爱走了; 2925184爱就爱我一辈子; 3部: 300想你哦; 30920想你就想你; 309420想你就是爱你; 3013想你一生; 32012想念你的爱; 32069想爱你很久; 3207778想和你去吹吹风; 3399长长久久; 330335想想你想想我; 3344生生世世; 356上网了; 35910想我久一点; 3731真心真意; 4部: 440295谢谢你爱过我; 4457速速回机; 4422335时时刻刻想想我; 456是我啦; 460想念你; 505求救(SOS); 510我依你、我已来; 507680我一定要追你; 51020我依然爱你; 51095我要你嫁我; 51396我要睡觉了; 514无意思; 515206我已不爱你了; 518720我一辈子爱你; 51830我依旧想你; 520我爱你; 520x10000我爱你一万年; 521我愿意; 52308我爱上你啦; 52406我爱死你了; 526我饿了; 5260我暗恋你; 530我想你; 530184我想你一辈子; 5366我想聊聊; 53406我想死你了; 5376我生气了; 53517230我想我已经爱上你; 53719我深情依旧; 53770我想亲亲你; 53782我心情不好; 53880我想抱抱你; 53980我想揍扁你; 5406我是你的; 543720我是真心爱你; 54335无事想想我; 5452830无时无刻不想你; 546我输了; 5460我思念你; 5490我去找你; 54920我始终爱你; 55646我无聊死了; 556520我不能不爱你; 5620我很爱你; 562009487我若爱你我就是白痴; 5670我要娶你; 57350我只在乎你; 57386我去上班了; 574839我其实不想走; 57410我心属于你; 578补习班; 58晚安; 586我不来; 584520我发誓我爱你; 587我抱歉; 592我好饿; 59420我就是爱你; 609到永久; 6120懒得理你; 6785753老地方不见不散; 6868溜哒溜哒; 687对不起; 7部: 70345请你相信我; 706起来吧; 70626请你留下来; 706519184请你让我依靠一辈子; 7086七零八落; 7087请你别走; 70885请你帮帮我; 721亲爱的; 729去喝酒; 7319天长地久; 740气死你; 737420今生今世爱你; 7408695其实你不了解我; 73748096今生今世伴你左右; 745气死我; 7474074去死去死你去死; 756辛苦了; 74839其实不想走; 765去跳舞; 7678吃饱了吗; 770880520亲亲你抱抱你我爱你; 7731心心相印; 77543猜猜我是谁; 77895紧紧抱着我; 7998去走走吧;。
数字有四种写法:
1、中文小写数字:一、二、三、四、五、六、七、八、九;
2、中文大写数字:零、壹、贰、叁、肆、伍、陆、柒、捌、玖;
3、阿拉伯数字:0、1、2、3、4、5、6、7、8、9;
4、罗马数字采用七个罗马字母作数字,即Ⅰ(1)、X(10)、C (100)、M (1000),V (5)、L(50)、D (500)。
扩展资料:
1、进位数码与大、小写数字的对照表
阿拉伯数字 :10,20,30,40,50,60,70,80,90,100
中文大写数字:拾,贰拾/念,叁拾,肆拾,伍拾,陆拾,柒拾,捌拾,玖拾壹佰
中文小写数字:十,二十/廿,三十/卅,四十/卌,五十/圩六十/圆,七十/进,八十/枯,九十/枠,一百
2、罗马数字
(1)相同的数字连写,所表示的数等于这些数字相加得到的数,如 Ⅲ=3;
(2)小的数字在大的数字的右边,所表示的数等于这些数字相加得到的数,如 Ⅷ=8、Ⅻ=12;
(3)小的数字(限于 Ⅰ、X 和 C)在大的数字的左边,所表示的数等于大数减小数得到的数,如 Ⅳ=4、Ⅸ=9;
(4)在一个数的上面画一条横线,表示这个数增值 1,000 倍,如
=5000。
参考资料:搜狗百科词条--中文数字
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:3.694秒