数据是关于组织机构及其业务活动的原始事实,它是信息系统中最活跃的元素。大部分数据自身并没有什么意义和用处,从不同角度可以进行不同的分类。
数据可以分为模拟数据和数字数据两大类。模拟
网站设计数据是在某个区间内连续变化的值,例如声音和视频都是幅度连续变化的波形,温度和压力也都是连续变化的值;数字数据是离散的值,如文本信息和整数。
一个企业要处理的数据通常有三种不同的类型:商务的、应用的和导出的数据,它们的特性有很大的差别。
·商务数据表示事实,如所获取的商务电话记录及类似的数据,这些数据在一段时间内是保持不变的。
·应用数据主要描述人或物的属性。如客户的姓名、地址、电话与传真号码、电子邮件地址等。应用数据一般是在客户要求服务时获取的,往往会跨系统地重现,变化性较大.同一应用数据可能有不一致的版本,容易发生冲突,因而管理复杂。
·导出数据是从已经存在的数据中运用某种数学运算或数据变换而得到的事实,如累计的费用、不同税种所要缴纳的税费总额等。
数据有多种表现形式,它们都可以经过数字化后存入计算机。下面介绍在计算机中如何表示数据。
数据在计算机中的表示与存储 数据是计算机处理的对象。从外部形式来看,计算机可以处理数值、文字、图像、声音、视频等。但是,在计算机系统的内部,这些都不能直接由计算机进行处理和存储,它们必须采取特殊的表示形式才能由计算机进行加工处理。这种特殊的表示形式就是二进制编码形式,即采用二进制编码来表示数值、文字、图像、声音和视频等.计算机系统中的数据都是以二进制编码形式出现的。
在二进制编码系统中,只有0和1两种基本符号,使用有两个稳定状态的物理器件(如三极管)就可以表示二进制数的每一位.例如,用高低两个电位,脉冲的有无,或者脉冲的正负极性等,都可以方便、可靠地表示。和1,如图2-1所示。
1.计算机中的数据单位 1)位
在二进制系统中,每个。和1都称为一个二进制位(Binary bit),简称位(bit).可以采用不同的组合方式将位组织在一起来表示数据—数字、字母、标点符号等。例如,字母H可以用01001000(即关一开一关一关一开一关一关一关)来表示。
2)字节
在计算机系统中,8个二进制位构成一个字节(Byte),简写为B,即1B=8b。字节是计算机处理数据的基本单位。一个字节可以表示2' = 256种状态,它可以存放一个整数(0-255范围内),或一个英文字母的编码,或一个符号。
计算机中常以字节为单位来表示文件或数据的长度及存储容量的大小。
3)字与字长
计算机一次存取、处理和传输的数据称为字(Word),即一组二进制位作为一个整体来参加运算或处理的单位.一个字通常由一个或多个字节构成,用来存放一条指令或一个数据。
一个字中所包含的二进制数的位数称为字长。不同计算机的字长是不同的.常用的字长有16位、32位和“位,也就是经常说的16位机、32位机和64位机.字长是衡量计算机性能的一个重要指标.字长越长,一次处理的数字位数就越多,速度也就越快。
2.计算机中常用的数据编码 数可以分为无符号数(不带正负号的数)和有符号数(带正负号的数)。对于无符号数,所有二进制位都用来表示数的大小。有符号数则用最高位来表示数的正负号,即设置一个符号位,该位为0表示正数,为1表示负数,其他位表示数的大小。
符号和数字合在一起构成数的机内表示形式,称为机器数。而它真正表示的带有符号的数值称为这个机器数的真值。机器数又分为定点数和浮点数。在机器数中,用0,1取代了真值的正、负号.机器数采用确定的字长表示,即假设字长为,,则一个机器数总是采用n位二进制表示形式。
在计算机中,机器数有三种表示形式:原码、补码与反码。
1)原码、补码与反码
(1)原码:对于无符号数,原码是一种用数值本身表示的二进制编码。
对于有符号数,原码是一种用符号和数值表示的二进制编码。有符号数的原码编码规则是:用最高位表示符号,正数用0表示,负数用1表示,其他位表示该数的绝对值.例如,设字长为8位,则十进制整数+1的原码表示为0000 0001,一1的原码表示为1000 0001。
(2)反码:反码使用得较少,它只是补码的一种过渡。
对于无符号数,反码是一种对数值按位取反(对0取反得到1,对1取反得到0)表示的二进制编码。
对于有符号数,反码是一种用符号位和对数值按位取反表示的二进制编码。有符号数的反码编码规则是:用最高位表示符号,正数用。表示,负数用1表示,正数的反码是其原码本身,负数反码的数值部分是原码的数值部分按位取反。例如,设字长为8位,则十进制整数+1的反码表示为0000 0001,一1的反码表示为1111 1110。
(3)补码:补码是计算机中表示和处理有符号数的运算时常用的一种方式。
对于无符号数,补码是一种对数值按位取反并加1表示的二进制编码。对于有符号数,补码是一种用符号和对数值按位取反并加1表示的二进制编码.有符
号数的补码编码规则是:用最高位表示符号,正数用。表示,负数用1表示;正数的补码是其原码本身,负数补码的数值部分是对其原码的数值部分按位取反后加1。例如,设字长为8位,则十进制整数+1的补码表示为0000 0001,一1的补码表示为1111 1111。
2) BCD码
计算机使用二进制数来处理信息,但是如果用二进制的形式来输人和输出数据,就十分不方便了.一般来说,输入时采用十进制数。因此计算机把十进制数转换成二进制数就要用到一种转换码,BCD码就是其中的一种。BCD码分为压缩BCD码和非压缩BCD码。对于压缩BCD码,每位BCD码用四个二进制位表示,一个字节表示两位BCD码.非压缩BCD码用一个字节表示一位BCD码,其高四位总是0000,低四位从0000-1001,分别表示0-9。
3) ASCII码
ASCII码(American Standard Code for Information Interchange,美国标准信息交换码)已经被国际标准化组织(International Standard Organization, ISO)采纳,作为国际通用的标准信息交换码。ASCII码包含5;个大、小写英文字母,0---9共10个数字字符,32个标点符号、运算符号、特殊符号,还有34个不可显示和打印的控制字符编码,一共有128个编码。
ASCII码一般在计算机的输人输出过程中使用,而二进制码和BCD码则在运算、处理过程中使用。因此,在应用计算机解决实际问题时,常常需要在这几种机器码之间进行转换。
4)小数的表示
当所要处理的数含有小数部分时,就存在一个如何表示小数点的问题。在计算机中并不用某个二进制位来表示小数点,而是规定小数点的隐含位置。若约定小数点的位置是固定的,则称为定点表示法,用这种方法表示的数称为定点数;若约定小数点的位置是可以变动的,则称为浮点表示法,用这种方法表示的数称为浮点.数。
对于定点表示法,通常小数点的固定位置有两种情况,一种是默认固定在数的最右边,即只有整数部分而没有小数部分,实际上也就是整数.因此这种数也被称为定点纯整数。另一种是把小数点固定在符号位之后、最高数值位之前,即只有小数部分而没有整数部分,因此也被称为定点纯小数。
当要处理的数既有整数部分又有小数部分时,采用定点表示法很不方便,因此一般采用浮点数来表示。
浮点数由阶码和尾数两部分组成,表示为:
N=2
E X S
其中E是有符号的纯整数,表示浮点数N的阶码;S表示N的尾数,是数值的有效数字部分,一般规定取二进制定点纯小数形式.底数2在机器数中不出现,是隐含的。
浮点数的格式如下:
5)其他编码
原码、补码与反码通常用来表示数值数据,对于文字、图形图像、声音等非数值数据的表示也有对应的编码标准.
(1)汉字编码:为了使计算机能处理汉字,也必须对汉字进行编码,在计算机中存放汉字实际上就是存放汉字的编码。由于汉字数量大、字形复杂,因此汉字的编码要比ASCII码复杂得多。
为了能显示和打印汉字,必须存储汉字的字形.现在普遍使用的汉字字型码是用点阵方式表示的,通常称为“点阵字模码”。
目前,汉字编码通常采用双七位编码方案,即用两个字节存放一个汉字,并规定两个字节的首位必须为1,以便与西文ASCII码区别。
(2) Unicode: Unicode(统一码、万国码、单一码)是基于通用字符集(UniversalCharacter Set)标准、在计算机上使用的一种字符编码,它为全世界每种语言的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
(3)音频和视频编码:声音信号是一种模拟信号,计算机要对它进行处理,必须将它转换成为数字声音信号,即用二进制数字的编码形式来表示声音。最基本的声音信号数字化步骤是采样、量化和编码。基于音频数据的统计特性进行编码的典型技术是波形编码,PCM(脉冲编码调制)是其中最简单、最基本的编码方法。改进方法则有差值量化(DPCM)、自适应量化(APCM)和自适应预测编码(ADPCM)等,实现了数据的压缩。此外,还有参数编码和混合编码方法。数字语音压缩编码有多种国际标准,如G.711,G.721,G. 726,G. 727 , G. 722 , G. 728.G. 729A,G. 723. 1, IS96 (CDMA)等。
计算机中的图形数据有两种常用的表示形式:一种称为几何图形或矢量图形,简称图形;另一种称为点阵图像或位图图像。一般可以通过硬件(输人输出设备)或软件实现图形和图像之间的转换.图像压缩编码方法有多种国际标准和工业标准,目前广泛使用的编码及压缩标准有JPEG,MPEG和H. 261,MPEG是运动图像压缩算法的国际标准,它包括MPEG视频、MPEG音频和MPEG系统(视频、音频同步)三个部分。
3.数据在计算机中的存储方式 用来存储数据的设备称为计算机的存储设备,如内存、硬盘、软盘、光盘等。不同的存储设备因所采用的材料不同而采用不同的方式来存储数据。磁存储、光存储和半导体存储是目前所使用的三种主要的存储方式。
1)磁存储
自从有计算机以来,磁介质就一直在数据和信息的存储中起着重要的作用。硬盘、软盘和磁带都是磁存储器。
数据通过读写磁头存储到磁介质上。读写磁头实际上是用软磁材料做铁芯、绕有读写线圈的电磁铁,它是通过磁化方式排列磁介质上的金属颗粒(氧化铁与猫合剂的混合物)来记录数据的。这些金属颗粒对应于二进制数位(例如,排成直线表示二进制数1,没有排成直线则表示0)。写磁头记录数据,读磁头获取数据。
2)光存储
光存储使用光信号来存储信息.激光器产生的一束光通过一些透镜,最后汇集在某个金属盘片或塑料涡流盘的表面上.该盘片的反射模式(对应于它所承载的数据)是读写数据和信息的关键部分。典型的光存储设备就是光盘。记录数据时,一束强大的激光在光盘的表面打一个凹槽,这些激光凹槽的有和无对应于二进制编码中的1和0。读取光盘上存储的信息时,一束较弱的激光扫描光盘表面,感知凹槽的模式.该模式被反馈给阅读器,由它解释出数据并把数据发送给CPU(中央处理器或中央处理单元)。
3)半导体存储
半导体存储器(Semi-conductor Memory)是一种以半导体电路作为存储媒体的存储器。按其功能可分为随机存取存储器(Random Access Memory, RAM)和只读存储器(Read Only Memory, ROM);按其制造工艺可分为双极晶体管存储器和MOS晶体管存储器;按其存储原理可分为静态(Static)和动态(Dynamic)两种。
ROM的电路结构包含存储矩阵、地址译码器和输出缓冲器三个组成部分,使用时其内容只能读取,不可改写。
静态MOS存储器由存储体、读写电路、地址译码电路和控制电路等组成,其存储体的基本单元为触发器,接通表示1,断开表示。。这种存储器速度快,但功耗大且集成度较低,因此存储容量较小。
动态MOS存储器是靠电容的电荷存储效应存储数据的,即电容充有电荷表示存储1,没有电荷表示存储。,因此除了具有存储体、读写电路、地址译码器和控制电路等部件外,还需要刷新电路,对存储单元进行定期刷新以保证数据不丢失。这种存储器速度较慢,但功耗低且集成度高,因此存储容量大。