文字及其处理技术.ppt

上传人:max****ui 文档编号:15175763 上传时间:2020-08-05 格式:PPT 页数:29 大小:2.21MB
收藏 版权申诉 举报 下载
文字及其处理技术.ppt_第1页
第1页 / 共29页
文字及其处理技术.ppt_第2页
第2页 / 共29页
文字及其处理技术.ppt_第3页
第3页 / 共29页
资源描述:

《文字及其处理技术.ppt》由会员分享,可在线阅读,更多相关《文字及其处理技术.ppt(29页珍藏版)》请在装配图网上搜索。

1、4.1 文本信息加工,4.1.1 文字及其处理技术,第四章 文本和表格信息加工,云南 纳西族 东巴文字,猜猜看,上面的象形文字究竟表示什么意思?,结绳说 图画说 仓颉造字说,一、体验文字处理技术,1. 文字是人类为了更加流畅地表述意义、传递经验而发明的工具。,一、体验文字处理技术,1.文字是人类为了更加流畅地表述意义、传递经验而发明的工具。,甲骨文 殷周时代,金文 西周、春秋,战国文字 春秋战国,小篆 秦朝,隶书 秦朝,楷书 东汉,行书 南北朝,草书 西汉,印刷字体 宋朝,2.汉字的创造饱含民族的智慧,汉字起源于象形文字,至今仍然保留了象形文字的特点。,汉字的造字法有四种:象形、指事、会意、形

2、声。,从字体上看,就是本字倒过来。上部为树头,下部为树梢,在树梢上加一小横,就表示这里是树梢。因此,末的最初的意义是树梢。,象形,指事,金文明为日月幷照之会意字。,会意,形声,形声字的一部分是“形旁”表示字义,一部分是“声旁”表示读音,如:“鸽”是“鸟”形“合”声,“河”是“水”形“可”声。,3 书法是一种凝结了我国民族文化精髓的特殊的艺术形式,兰亭集序(局部) 晋王羲之,徐冰方块英文,将26个字母改造成类似中国汉字的偏旁部首,Art For The People,一、文字及其处理技术,历史上使用的文字处理技术,请按时间顺序排列: 活字印刷;机械式打字机;手写;雕版印刷; 刻字;计算机文字处理

3、,Ti yan qing jing : pin yin yu han zi 体验情境:拼音与汉字,村居 (清) 高 鼎 草长莺飞二月天, 拂堤杨柳醉春烟。 儿童散学归来早, 忙趁东风放纸鸢。,字符的编码ASCII码 美国信息交换标准代码( American Standard Code for Information Interchange, ASCII ),.,.,.,.,十进制数,二进制数,十六进制数,字符,0000 0000,0000 0001,0000 0010,0000 0011,+,+1,+1,1,0,1,2,3,01111111,127,0 1 2 3 4 5 6 7 8 9 A

4、B C D E F,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15,十六进制数的表示,一个十六进制数需要四个二进制数表示 F=1111 E=1110 D=1101 C=1100 B=1011 A=1010 9=1001 8=1000 7=0111 6=0110 5=0101 4=0100 3=0011 2=0010 1=0001 0=0000,1个字符需要8位二进制数即8个比特 (Bit) 而 1个字节B(byte)=8比特(Bit) 即一个字符需要一个字节来存储,汉字的输入方法,汉字的输入方法目前有两大类四种:()键盘输入法。利用各种汉字输入方法的编码敲击键盘来输

5、入汉字;()非键盘输入法。目前主要有三种方法:手写笔输入,语音输入,扫描识别输入,二、汉字的编码,1. 用于输入汉字的编码输入码(外码) 编码方案:区位码、拼音码、王码、自然码 编码类型: 音码:将汉字与读音建立对应关系进行编码的方法如:全拼双音、双拼双音 形码:将汉字的字形按笔画或组合进行编码的方法,如:王码、郑码、表形码 数字码:将汉字与数字对应的编码方法。如:区位码 简介 混合码:将汉字的字形和字音相结合的编码方法。如:自然码,2. 用于存储汉字的编码机内码(内码),汉字的机内码是供计算机系统内部、加工处理、传输而统一使用的代码。 国际码( GB ) 也叫GB国际码,简称国际码 1980

6、 年,国家标准局颁布了信息交换用汉字编码字符集基本集 (代号为 GB2312-80 ),这是国家标准汉字编码。,二、汉字的编码,大五码(Big5) 又称为五大码,是使用繁体中文社群中最常用的电脑汉字字符集标准,共收录13,060个中文字,其中有二字为重覆编码,Big5属中文内码(中文码分为中文内码及中文交换码两类)。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de facto standard)。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准,但厂商又各自增删,衍生成多种不同版本。,Unicode(统一码、万国码、单一码)

7、 一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。,练习: 11个汉字等于( )个字节,1个英文是( )个字节。 A.1个B.2个 C.4个 D.8个 2一级汉字有()个,二级汉字按()顺序排列,汉字符号共有( )个。 A3008个B682个C3775个D6763个 A.汉语拼音B.部首笔画 A.7445个B.6763个C.682个 3一级汉字一般位于()区,5687区是( )。 A45区B8899区

8、C5687D1655区 A一级汉字B俄文字母C二级汉字D未用,二、汉字的编码,例:课本56页有一个“熊”的区位码是“4860”,在这里我们把这个区位码认为是十进制。 分析:区位码由区码和位码组成,区码是高字节二位,位码是低字节二位,区号是十进制“48”,位号是十进制“60”。,区码(48)10=(30)16位码(60)10=(3C)16 国际码高字节两位:30H+20H=50H国际码低字节两位:3C+20H=5CH 国际码是505CH 机内码高字节=50H+80H=D0H机内码低字节=5CH+80H=DCH 机内码是D0DCH,公式:国际码高字节=区位码高字节+20H 国际码低字节=区位码低字

9、节+20H 机内码高字节=国际码高字节+80H 机内码低字节=国际码低字节+80H,二、汉字的编码,输入码与机内码的转换算法(区位码机内码),3、汉字的输出码(字型码) 用于输出汉字的编码输出码(字型码),宋体,楷体,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000000

10、000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000001111000001110001100001111100000000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000

11、000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000001111000001110001100001111100000000,点阵字型:将汉字分解成若干个“点”组成的点阵字型。 例: 16 16 点阵,表示一个汉字,则一个汉字占 16 行,每一行 16 个点,其中每一个点用一个二进制数表示,值“ 0 ”没有笔形,值“ 1 ”表示 有笔形。 1 B 8bit 1616bit/8bit=32B,练习: 132 32点阵表示一个汉字需要( )个字节。

12、 A.128个B.64个C.32个D.36个 2( )点阵显示的汉字效果最好。(多项选择) A.2424B.精密型C.提高型 D.1616 E. 64 64 3.存贮在计算机中的汉字以()码形式存储。 A.区位码B.机内码C.字形码 D.输出码 E. 二进制码,3、 输出码(字型码),汉字的编码,输入码 (外码),机内码 (内码),输出码 (字型码),用于输入汉字的编码,用于存储汉字的编码,用于输出汉字的编码 字模1616,2424 宋体、楷体、隶书等,区位码 :6625 全拼编码:chun 五笔字型:dw,春,用机内码 存储,如国标码(GB)和BIG5码,用汉字字型码 输出码 输出汉字,(数

13、字码,音码、形码、混合码) 区位码输入, 智能ABC,微软拼音, 郑码,五笔字型,自然码等,宋体 楷体,三、汉字的处理过程,思考:,同一个字用不同的输入法输入,输入码一样吗?机内码一样吗?输出码一样吗? 如果用6464点阵表示一个汉字字形,需要用多少个字节来存放?,思考:,在浏览网页或阅读邮件遇到乱码现象应该怎样解决? 在输入汉字的时候,碰到生僻字,如“喆”、“镕”等字时,可以采取什么办法?,问题情境:丁丁是高一(18)班长,开学时要安排值日表,丁丁的计算机基础较好,于是就想通过电脑编制这个表格,以后修改更方便。可是,在他输入学生姓名的的时候,碰到了几个姓名怎么输也输不进去,你能帮他解决这个问

14、题吗?,实践1:请新建一个word的文档,尽可能用多种输入法输入汉字“中”,并填写下表。,参考资料,上机实践,实践2:书本P58的1(2),利用TRUETYPE程序设计一个新字或个性化签名实践3:请用东巴文输入汉字“喝茶”、“唱歌”,上机实践,讨 论,在最近几年,作为大学教材的语言文字原理一书中有这样一段结论:“汉字永远只能作为客人在电脑中出现,真正的主人还是拼音文字,因为人们无法直接用汉字设计电脑程序,无法使汉字成为电脑符号”。,火星文是一种什么文字?谈谈你的看法。,体验文字处理技术,汉字的编码,文字及其处理技术,输出码(字型码)汉字的输出,机内码(内码)汉字的存储,输入码(外码)汉字的输入

15、,书法是一门凝结了我国民族文化精髓的艺术,汉字的创造饱含民族的智慧,文字的发明是为了更流畅地表述意义、传递经验,中文信息处理技术发展历史,课堂 小结,(教学重点),(教学难点),汉字区位码表 汉字区位码共收汉字6763个,分成两级。 第一级汉字3755个,置于16区至55区; 第二级汉字3008个,置于56区至87区. 第 16 区 1601 1602 1603 1604 1605 1606 1607 1608 1609 1610 啊 阿 埃 挨 哎 唉 哀 皑 癌 蔼 1611 1612 1613 1614 1615 1616 1617 1618 1619 1620 矮 艾 碍 爱 隘 鞍 氨 安 俺 按 1621 1622 1623 1624 1625 1626 1627 1628 1629 1630 暗 岸 胺 案 肮 昂 盎 凹 敖 熬 1631 1632 1633 1634 1635 1636 1637 1638 1639 1640 翱 袄 傲 奥 懊 澳 芭 捌 扒 叭 a,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!