古籍数字化加工技术解决方案

上传人:494895****12427 文档编号:63500669 上传时间:2022-03-19 格式:DOC 页数:12 大小:1.52MB
收藏 版权申诉 举报 下载
古籍数字化加工技术解决方案_第1页
第1页 / 共12页
古籍数字化加工技术解决方案_第2页
第2页 / 共12页
古籍数字化加工技术解决方案_第3页
第3页 / 共12页
资源描述:

《古籍数字化加工技术解决方案》由会员分享,可在线阅读,更多相关《古籍数字化加工技术解决方案(12页珍藏版)》请在装配图网上搜索。

1、精选优质文档-倾情为你奉上附件:地方资料数字化加工处理招标及技术要求一投标供应商资质要求1、 投标供应商注册资金在50万元以上。2、 投标供应商应提供至少两个从业人员资格证明文件。 二地方资料数字化加工技术解决方案通过对项目加工要求的仔细分析,本次地方资料数字化加工的内容主要为地方资料图书进行扫描加工,完成的数据应用于数字图书馆平台发布,具体详细实施方案如下:12.1 生产流程对图书馆地方资料进行数字化加工,其加工流程如下:地方资料数据加工工艺流程根据地方资料文件全文转换及版式还原的技术要求和工作特点制定如下工作流程:12.2 地方资料数字化加工数据标准12.2.1 图像序号制作标准1全部页面

2、扫描成300DPI的彩色TIF图像2图像清晰,版心居中,无视觉倾斜,无污点,无颜色失真现象。3图像版心大小统一,图像尺寸相同,图像完整无缺损。4图片分页问题按实际页展现。12.2.2 MARC文件包含有元数据项目的图书索引信息,正确率须达到100%。12.2.3 PDF文件序号制作标准1在PDF还原过程中,对原书版式进行一定的统一和规范处理,包括对鱼尾、版框、版心和书口的处理按照原书还原。2所有版面文字均用宋体字还原,文字的颜色一律为黑色。文字的位置按原书还原。双行小字和多行小字按原书版式和比例还原。3版面插图、牌记、印章、草书和行草序按照图片处理,信息必须在XML文件中体现。4贴字图均为二值

3、图像,按原书位置做贴图处理, PDF文件采用100%显示比例时,贴字图与其他文字大小相当,对贴字图中的文字进行IDS描述。5PDF要完整,保证无缺页、重页,页码顺序颠倒的情况发生。6生成的电子文档格式是版式重构PDF,每页文件的大小不超过100K,图像清晰。7PDF文档保持原纸质文档简繁体属性。8PDF文档要符合相关的国际、国内、行业标准,文字错误率低于万分之三,生成版式重构的单层PDF。必须加上采购人版权水印。12.2.4 技术元数据标准针对需进行加工的纸质地方资料原始资料,建立基本属性对应的著录项目,并生成基本地方资料附属信息、目次信息等规范数据,同时为规范数据建立相应的代码识别体系,该代

4、码识别体系将贯穿整个工程的信息交换和数据交换,避免出现信息和数据不一致的情况。结合计算元数据标准并通过智能检测模块可以有效的避免在数字化过程中可能出现的漏扫、重扫等情况。针对需进行加工的地方资料,建立基本属性对应的著录项目,并生成规范数据,为各规范数据建立相应的代码识别体系,同时建立辅助信息标引库。本次加工的地方资料图书所需著录的字段如下表:图书必备检索字段A、 书名B、 责任者C、 版本类型D、 出版责任E、 出版时间F、 版本形式G、 所属丛书H、 卷数I、 卷次12.2.5 工程信息库通过对地方资料纸质资料和文档进行归类整理,在技术元数据标准基础上,根据工程各环节所需要公用的基础信息,将

5、地方资料的基础著录项目抽取成为资料内部特征,建立信息标引配置数据库和相关流水线工艺文档,制定项目评价标准和环节控制标准等。工程信息库与方正业务流程管理系统挂接,工程信息库在整个工程实施中会围绕基础信息,随着数据流转不断增加相关的信息,通过方正业务流程管理系统,可以实时的掌握每一批次、每本地方资料的生产进展和所处的生产环节,也能掌握到数据的状态、收发时间、生产责任人等相关信息。12.2.6 管理元数据标准序号管理元数据标准1每本地方资料建立一个文件夹(示例:SZFZ2908),按照地方资料卷的顺序建立子文件夹(例如:卷),该卷的图片文件、PDF文件和XML文件都存放在此文件夹中按照流水累加编号(

6、示例:SZFZ2908-)。文件夹命名须包含图书的完整编号和子文件夹流水号。2集外字表命名取每本地方资料后四位编号(示例:2098(国图外字表)。3字频统计列表名取每本地方资料后四位编号(示例:2098(字频统计)4总PDF文件与总XML文件与地方资料文件同名(示例:SZFZ2908(总PDF)、SZFZ2908(总XML文件)5地方资料子册PDF文件命名示例:SZFZ2908-(第一册子PDF)SZFZ2908-(第二册子PDF)12.3 数字化工程管理、资料管理和工程信息预处理为保障地方资料数字化加工过程的有效性,成立工程管理部门。该部门按照地方资料数字化工程的需求,全面负责具体工程的实施

7、,包括生产工艺调整,工程调度,组织具体的数字化及标引著录等生产工作,进行环节控制,数据合成和测试,以及最终数据的提交。全面负责工程进度和质量、考核和评价环节衔接、协调衔接问题,帮助环节内部整理影响进度和质量的因素,并出具各种进度和质量报告。建立整体工程的信息库,为整个生产流水线提供生产任务规划。在工程完毕之后,负责回收原始资料并进行整理归还。对原始资料进行归类整理,并按图书地方资料的书名、书号、作者、版别、出版时间、版次、页数、加工后文件夹名等著录项目的要求抽取资料内部特征建立信息标引配置数据库和相关流水线工艺文档,制定项目评价标准和环节控制标准等。加工前的准备:12.3.1 地方资料整理由方

8、正项目经理和用户方指定人员进行地方资料/卷的领用、归还交接工作。地方资料实体出库时应由用户方人员填写“领用交接单”注明地方资料/卷类型、卷号、数量等具体信息。由我方接收人员清点后签字确认。最终归还时以领用时的交接单作为标准核查无误后才准入库。领用完毕后根据用户方提供的工作单核对目录,检查地方资料质量、保存状况、缺失情况等等信息进行登记反馈。12.3.2 拆卷处理地方资料部分原则上一般不进行拆卷处理,若因为特殊情况需要拆卷,在获得用户同意下,通过专业人员指导进行。在拆卷过程中,如发现原案卷整理有问题的,比如文件顺序明显错误、装订漏页、装订压字而右边较宽等,经请示用户同意后我们会予以纠正。整个加工

9、过程中不伤及页面、损坏原文、不丢页、混页。12.3.3 地方资料页面修整对地方资料页面的褶皱、折角、折痕进行平整处理,对于破损部分进行裱糊处理,以防止在扫描工序中对纸张造成二次伤害。12.3.4 地方资料整理登记制作并填写地方资料数字化加工过程交接登记表单,详细记录地方资料整理后每份资料的起始页号和页数,登记信息随着原始文件一起流转保障地方资料在下一环节扫描过程中不出现漏扫和重扫的现象。12.4 图像扫描和预处理12.4.1 工作内容假设加工周期为6个月,我们计划安装3台零边距扫描仪进场进行地方资料数字化的扫描工作,扫描仪选用虹光扫描仪,其特点是A3大幅面,结构简洁而操作方便,6001200d

10、pi高光学分辨率,A3大幅面超快速扫描,并保证影像扫描的品质与速度同时并具。专利设计的扫描仪正面端书刊零边距放置全幅无损完美扫描方式,可以实现A3幅面书刊无损完整扫描。同时具有良好的产品性能,高可靠性,结实耐用,非常适合大量图书、地方资料期刊等的不拆装无损扫描数据加工。其指标如下:1) 按照地方资料标明的顺序扫描。对于附着在主页上的小纸片作为另页扫描,另页扫描的命名时放在主页之前。2) 对于同一份地方资料中有批注存在的,以地方资料主要部分的清晰为准,需进行灰度补偿处理。3) 扫描时为了保证地方资料资料的载体安全应根据纸张情况选用合适的扫描生产线,对于纸张较薄或较脆容易破损的要使用平板扫描。4)

11、 使用300dpi扫描成彩色TIF图像,作为原始的数字馆藏形态(馆藏图像),在后续加工过程中根据实际情况在馆藏图像基础上进行抽线处理(抽线图像)。特殊纸张或地方资料原件清晰度不高的,可通过增加分辨率,调整亮度、对比度等技术参数,直至扫描图像清晰为止。对于同一份地方资料筒子页,清晰度不同,特别是批注存在的,以文件主要部分的清晰为准。5) 保持上下左右四边尺寸合理,边距过宽的进行裁边,边距过窄的进行加宽;6) 对于纸质发黄,很多还沾有各种污渍,且地方资料信息中包含了诸如毛笔等多种类型的字迹,还有印鉴、插图等图形,通过手动修整、调整阈值、调节色彩和对比度等处理,提高地方资料图像的清晰度和美观度,达到

12、能清晰阅读;7) 对于珍椠善本可以采用地方资料专用的无接触扫描仪进行扫描或使用专用数码相机进行拍照获取图像。若原书有残缺、污损等影响阅读的情况,若扫描处理无法解决时,在相应版面处添加说明,同时在readmetxt文件中记录说明,并及时与用户联系协商处理办法。12.4.2 特殊情况处理保护措施使用零边距扫描仪,破损严重的地方资料使用拍照的方法数据备份出于对地方资料保护的需要,将地方资料资料扫描一套300DPI彩色TIF图供用户备份;可以满足按需印刷的需求。同时生成一套300DPI的JPG文件做加工处理特殊页扫描筒子页中存在透纸的现象,可以在筒子页中间插入白纸(最好用宣纸)后进行扫描破损严重页面采

13、用无闪光灯拍照或者非接触性扫描仪12.4.3 影像监控及存储本项目中需数字化的地方资料主要是纸张,数字化工作人员可通过本系统直接进行地方资料扫描,生成TIFF影像存储。地方资料扫描平台主要完成纸张文档的扫描录入,形成标准压缩格式的电子影像文件。同时,地方资料扫描平台具有丰富的图像处理功能,能监控扫描质量,如发现存在清晰度不够、缺损、偏斜、缺页等情况,能灵活地对重新扫描、补扫等进行控制,同时系统具备辅助纠偏及图像拼接功能,大大提高了扫描图像的品质与生产效率。馆藏地方资料具有重要的史料价值和很高文化价值,是不可再生的宝贵财富,由于年代久远,纸张极易风化粉碎、残破、变形、霉变,或不能进行拆页,这类地

14、方资料不能使用中高速扫描仪进行扫描,可采用平板扫描仪进行扫描,也可使用数码相机进行影像拍摄。对于幅面较大、超出扫描仪扫描范围的地方资料,系统提供影像无缝拼接功能,即可将大幅面地方资料分成几部分进行扫描,最后使用软件进行拼接处理,形成完整的图像。由于系统使用先进的图像处理及优化技术,拼接的图像效果与完整扫描的图像效果相近。推荐图像格式:单页的TIF影像捕获软件提供了很多已经定义好的应用设置,屏蔽实际硬件操作的控制。使系统支持TWAIN标准或者兼容ISIS接口标准的扫描仪(注:现在大部分扫描仪均遵循这两种标准中的一种),因此本系统可以说支持现在市面上几乎所有的高中低端扫描仪。影像捕获软件是一款32

15、位的应用程序,能够充分利用操作系统如Microsoft Windows和PC机的特性。同时,基于图标的工具条,上下文敏感的菜单和在线的帮助的软件操作的学习和培训变得更加简单。12.5 影像处理12.5.1 工作内容对地方资料图像文件按照加工标准进行图像处理包括:去污、版心调整、纠斜和尺寸调整等等为后期版面分析和全文识别提供满足要求的图像文件。12.5.2 制作标准分类标准页面尺寸同一本书的每一页图像版心大小统一,图像尺寸相同图像歪斜采用自动或手动纠偏功能,调整图像角度。图像偏斜度不超过1度,对方向不正确的图像应进行旋转还原,以符合阅读习惯图像清晰度图像脏点、脏斑:对图像页面中出现的影响图像质量

16、的杂点如黑点、墨线、黑框、黑边等应进行去污处理。处理过程中应遵循保持图书原貌的原则。为了节省存储空间,应对图像进行裁边处理,去除多余白边字迹洇透采用字迹锐化的功能,清晰字迹笔画图像深浅不一采用平衡功能,调整图像深浅一致大幅图像处理图像拼接处信息要完整,不能缺少信息图像完整性图像做到完整无缺12.5.3 实现方法影像处理软件的多页显示功能最多可以在屏幕上一次显示8个影像,便于在同时显示多个影像和进行质量检查。l 影像调整:在每个窗口中动态地调整影像的大小。l 去除黑边:去除影像周围的黑边,在扫描混合纸张的时候不用调整扫描的参数。l 纠偏:扫描过程中将歪斜的影像纠正, 减少扫描后的处理。l 灰阶补

17、偿:把二值图像进行256阶的灰级化,从而进行图像缩小时利用象素点周围的值进行增强,达到视觉上对内容的识别。l 旋转:(90, 180, 270) 支持横向扫描,使产量最大化。l 影像调整和编辑工具:拥有旋转, 顺序调整, 删除等操作。l 正反面合并:将正面和反面的单个影像合并成单个影像。l 划分正反面:将一个长文档的引线划分成效影像。例如,软件可以将一张A3的纸张自动分成两张A4的纸张. 同时效果也可以在屏幕上立刻显示出来。l 用户设置可以控制特殊应用的存取和影像采集软件的各种属性。l 自动识别扫描仪的SCSI ID使得影像采集软件能够即插即用。12.5.4 特殊情况处理图像拼接我公司自主研发

18、的图像拼接软件,可以实现每个筒子页的拼接图像处理地方资料图像一般只调整对比度、底色版面分析地方资料排版的字与字之间连接很紧密不利于识别,因此在版面分析中需要将每个字画框隔离12.5.5 输出数据通过精细加工和处理后生成和原始图命名和存放规则一致的TIFF图像。12.6 版面分析和基础信息提取12.6.1 工作内容对图像处理完成的图像文件进行版面分析和信息提取工作,主要标注地方资料版面文字块、图像块、页面块、纹饰块和颜色信息等等版面信息,为后期版面识别和版面重构提供数据基础。12.6.2 制作标准分类标准版面画框根据文字区域、插图区域和纹饰区域进行画框批注、印章标注对于版面中的批注、印章按照要求

19、标注为贴图手写“点”标注对于版面中的后批注的“点”按照文字进行标注处理图像属性标注标注图像的精度、图像模式(黑白、灰度和彩色)12.6.3 地方资料书目数据著录工作内容对本项目承接的全部地方资料图书按照地方资料册为单位制作每本地方资料的书目清单以EXCEL格式文件输出。图书地方资料按照书名、书号、作者、版别、出版时间、版次、页数、加工后文件夹名等著录项目,要求信息准确,无差错。12.6.4 制作标准分类标准书目数据格式地方资料制作完成后提供书目信息,采用EXCEL格式数据项按照书名、书号、作者、版别、出版时间、版次、页数、加工后文件夹名等著录文字正确率要求信息准确,无差错使用方正元数据标引模块

20、是对地方资料的元数据进行标引的工具制作完成后导出EXCEL格式文件。特殊情况处理标准:l 出版时间出现多次,以最近一次出版时间为著录内容l 地方资料作者出现多人,需全部著录12.7 数据整合与测试对每道工序进行严格的测试,全面进行工程质量考核,评价数据质量,及时发现环节疏漏,并出具各种质量测试和检验报告;收集各环节生产控制信息和操作日志文件,并对生产环节和人员作综合评价;整合通过流水线数字化工艺产生的不同类型的各种结果数据,形成数字化工程的最终数据。整合所有过程信息,并按要求输出,供决策和任务提交。12.8 成品数据清单数据建设文档管理:包括数据结构、数据样板、数据处理流程和规范、数据维护方法

21、等。测试文档管理:对于数据质量、完整性、规范性、一致性、格式化等不同内容的测试文档及报告等。实施培训和服务文档管理:数字化工程实施文档,根据工程建设及发展要求整理的培训和维护文档等。按照数字化工程最终的交付要求,整合各工程环节的文档,并整理出向用户提交的完整内容,包括成品数据:存放形式格式内容硬盘存放TIF图像文件提供300DPI的TIF图像文件;PDF文件版式风格完全尊重原刊的版式还原PDF文件;XML文件按照相应的DTD定义,输出要求定制的可接入后续应用系统或全文检索系统的交换文件,以及体现版式与文章对应关系的文件;MARC文件包含有元数据项目的图书索引信息其他文件提供一套完整的排版文件和一套EXCEL格式的相关说明文件;l 成品数据质量要求:无坏死文件。文件不携带病毒。要求提供的说明文件完整、准确。l 加工成品数据的提交规则提交成品数据经过数据自检,并提交数据校验报告。按照双方协商认可的数据交付计划先交付数据加工计划清单中地方资料加工数据(TIF、XML、PDF),待验收合格并正式通知后,再交付排版加工文件和书目信息文件。l 数据存储介及数据备份工作可根据甲方要求,为其定制和提供各种格式的原始形态数据备份,如XML、TIF、PDF、JPG、EXCEL等格式的文件以及用户指定的备份存储文件。专心-专注-专业

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!