贵州电网公司
纸质档案电子化加工技术规范
1 范围
本规范规定了纸质档案电子化加工的主要技术要求,以保证贵州电网公司档案电子化加工质量。本规范适用于对各种纸质档案(包括文书档案、科技档案、照片档案等)的扫描电子化加工处理。
2 电子化加工要求 2.1 总则
贵州电网公司数字档案馆系统对纸质档案数字化的关键要求是:
●对于300dpi 和200dpi 的分辨率不作硬性规定,在分辨率标准为大于200dpi 的前提下,保证图像的清晰和OCR 识别,其中“手写体文档、地形图纸文档、照片档案”不作OCR 识别。
●根据贵州电网公司的实际,采用以件(文件)为单位的多页tif 的存储格式,tif 格式的压缩算法黑白采用CCITT GP4、灰度和彩色采用LZW 。
●保证电子化影像的完整性和顺序的正确性。
●文书档案要求把加工的文件内容区分为:收文办文单+正
— 3 —
文+附件为一个文件, 正式红头文件+附件+发文稿为一件,底稿不作扫描处理, 以便对文书档案原文信息检索利用的权限进行有效的控制。
●密级文件一律不扫描,有目录的要建索引,但不挂电子原文。
2.2 数字化最终成果的技术规范 2.2.1 扫描方式
●文本材料、黑白照片采用黑白二值图像,对于300dpi 和200dpi 的分辨率不作硬性规定,在分辨率标准为大于200dpi, 存储格式为单页tiff 格式,采用CCITT group4压缩算法;
●彩色照片档案宜采用真彩色(24位)图像,分辨率为200dpi ,存储格式为单页tiff 格式,采用JPEG 压缩算法;
●彩色和带灰度的图纸材料采用8位灰度或真彩色(24位)图像,分辨率为200dpi, 存储格式为单页tiff 格式,采用LZW 压缩算法;
●保证图像的清晰和OCR 识别,其中“手写体文档、图纸文档、照片”不作OCR 识别;
2.2.2 图像质量要求
●图像页面清楚,要求去除数字图像中的杂点、黑边等。 ●数字图像的文字水平偏斜角度小于 1 度,图像水平偏斜
— 4 —
不超过页面内半个文字。(视原件的倾斜程度)
2.2.3 图像命名方式及存储结构:
对加工合格的成果文件进行批量挂接上传,存储结构为: ●加工的多页TIF 文件存放于光盘根目录的image 文件夹下,相应的档案著录信息数据库文件在光盘根目录下,名为archive.mdb 。
●多页TIF 文件命名:
案卷形式:以案卷档号+卷内序号命名多页TIF 文件,如:1001-8201-1-1.tif 。
件盒形式:以文件档号命名多页TIF 文件。如:2005-102-1.tif
2.2.4 数据库(archive.mdb )的结构: ●科技档案结构 案卷目录
— 5 —
卷内目录
●文书档案结构
案卷目录(传统文书)
卷内目录(传统文书)
— 6 —
盒目录(文件管理)
文件目录(文件管理)
— 7 —
3 档案扫描加工流程 3.1 文件加工流程图
— 8 —
— 9 —
— 10 —
4 电子化加工成果与数字档案馆接口
在进行电子化加工的同时,按照数字档案馆系统的著录字段和信息,进行著录加工,并将加工和著录成果导入数字档案馆系统。
系统的接口如下图所示:
— 11 —
贵州电网公司
纸质档案电子化加工技术规范
1 范围
本规范规定了纸质档案电子化加工的主要技术要求,以保证贵州电网公司档案电子化加工质量。本规范适用于对各种纸质档案(包括文书档案、科技档案、照片档案等)的扫描电子化加工处理。
2 电子化加工要求 2.1 总则
贵州电网公司数字档案馆系统对纸质档案数字化的关键要求是:
●对于300dpi 和200dpi 的分辨率不作硬性规定,在分辨率标准为大于200dpi 的前提下,保证图像的清晰和OCR 识别,其中“手写体文档、地形图纸文档、照片档案”不作OCR 识别。
●根据贵州电网公司的实际,采用以件(文件)为单位的多页tif 的存储格式,tif 格式的压缩算法黑白采用CCITT GP4、灰度和彩色采用LZW 。
●保证电子化影像的完整性和顺序的正确性。
●文书档案要求把加工的文件内容区分为:收文办文单+正
— 3 —
文+附件为一个文件, 正式红头文件+附件+发文稿为一件,底稿不作扫描处理, 以便对文书档案原文信息检索利用的权限进行有效的控制。
●密级文件一律不扫描,有目录的要建索引,但不挂电子原文。
2.2 数字化最终成果的技术规范 2.2.1 扫描方式
●文本材料、黑白照片采用黑白二值图像,对于300dpi 和200dpi 的分辨率不作硬性规定,在分辨率标准为大于200dpi, 存储格式为单页tiff 格式,采用CCITT group4压缩算法;
●彩色照片档案宜采用真彩色(24位)图像,分辨率为200dpi ,存储格式为单页tiff 格式,采用JPEG 压缩算法;
●彩色和带灰度的图纸材料采用8位灰度或真彩色(24位)图像,分辨率为200dpi, 存储格式为单页tiff 格式,采用LZW 压缩算法;
●保证图像的清晰和OCR 识别,其中“手写体文档、图纸文档、照片”不作OCR 识别;
2.2.2 图像质量要求
●图像页面清楚,要求去除数字图像中的杂点、黑边等。 ●数字图像的文字水平偏斜角度小于 1 度,图像水平偏斜
— 4 —
不超过页面内半个文字。(视原件的倾斜程度)
2.2.3 图像命名方式及存储结构:
对加工合格的成果文件进行批量挂接上传,存储结构为: ●加工的多页TIF 文件存放于光盘根目录的image 文件夹下,相应的档案著录信息数据库文件在光盘根目录下,名为archive.mdb 。
●多页TIF 文件命名:
案卷形式:以案卷档号+卷内序号命名多页TIF 文件,如:1001-8201-1-1.tif 。
件盒形式:以文件档号命名多页TIF 文件。如:2005-102-1.tif
2.2.4 数据库(archive.mdb )的结构: ●科技档案结构 案卷目录
— 5 —
卷内目录
●文书档案结构
案卷目录(传统文书)
卷内目录(传统文书)
— 6 —
盒目录(文件管理)
文件目录(文件管理)
— 7 —
3 档案扫描加工流程 3.1 文件加工流程图
— 8 —
— 9 —
— 10 —
4 电子化加工成果与数字档案馆接口
在进行电子化加工的同时,按照数字档案馆系统的著录字段和信息,进行著录加工,并将加工和著录成果导入数字档案馆系统。
系统的接口如下图所示:
— 11 —