混排数字墨水文档智能处理方法研究

基本信息
批准号:60970158
项目类别:联合基金项目
资助金额:30.00
负责人:张习文
学科分类:
依托单位:北京语言大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:安维华,冯艳宾,白浩,蔡志超,杜淼,曲波,黄飞达,黄志娥
关键词:
交互可视化识别混排数字墨水文档分割
结项摘要

采用计算机笔输入技术,通过手写手绘能够自然地记录所见所闻所思,快速生成数字墨水文档。混排数字墨水文档包含文本、表格、表达式、流程图和示意图等,文本包含汉字、标点符号、数字、字母、单词等,但只具有笔划信息。为了充分利用其中的结构、符号和语义等高层次信息,研究智能分割方法以生成结构化文档,提取具有可信度的多层次结构及其空间、层次和逻辑关系,包括自动的迭代分割方法、分割结果的自适应可视化方法和人工校正分割错误的自然交互方法;研究智能识别方法以转换成符号化和语义化文档,基于上下文自适应识别表达式、流程图和示意图等,并提供可信度,以及识别结果的自适应可视化方法和人工校正识别错误的自然交互方法;研究基于结构理解的智能修改方法和规整排版方法;研究上述所提出方法的评估方法。为自然、高效而充分地利用实际混排数字墨水文档提供理论、技术和工具三个层面的支撑。

项目摘要

数字墨水是采用数码纸笔等获取的新型数据,是具有时序笔划的集合,每个笔划是采样点集合,可表示文字、图形和表单等。混排数字墨水文档包含文本、表达式、流程图、表格和示意图等,但只有笔划信息,为获取结构、符号和语义等信息,需要进行分割与识别等智能处理。. 本项目研究了三个层面:结构化以获得多层次结构,符号化以获得计算机编码文档,语义化以获得组成之间关系。. 针对分割和识别两大任务,对自动处理、可视化和人机交互等方法进行了改进和创新;为提取多层次结构,提出了多次迭代、逐步改进的集成聚类方法;针对现有自动处理方法不能提供完全正确结果,提出了自适应可视化方法;面向自然和高效的人工校正,对于可视化结果,提出了基于上下文的人机交互方法。. 在论文发表上,针对中文数字墨水文本中单字、文本行和段落提取结果,提出了自适应可视化方法,已发表论文于国际会议,EI20124315603084。针对中文数字墨水表达式中符号及其关系提取结果可视化,提出了自适应和分层次的新方法,论文已发表于国际会议,EI20124115537893。在中文数字墨水文本分割结果可视化后,提出了基于上下文的人机交互新方法,已发表论文于国际会议,EI20104213307007。在数字墨水汉字分割中,面向评估书写质量,针对连笔和断笔,提出了基于子笔划的自适应匹配方法,已发表论文于国际会议,EI。. 在研究生培养上,共有8名硕士生,7名已毕业。白浩已于2010年7月毕业,论文为“中文数字墨水文本的分割方法研究”。周小飞已于2012年3月毕业,论文为“数字墨水表达式智能分割与识别方法研究”。2010级硕士生武婧,研究“数字墨水流程图的分割与识别”,将于2013年7月毕业。. 在国内外合作与交流上,2011年发表论文于上海召开的国际会议,2010年、2011年和2012年发表论文于乌克兰、印度尼西亚、韩国和意大利召开的国际会议。2010年8月7至8日参加教育部在浙江省杭州市举办的“全国高校自然科学科研专题研讨会”。. 采集各种数字墨水文档1000张A4页面。发表论文8篇,6篇为国际会议,全部被EI,2篇为国内核心期刊。培养7名已毕业硕士。项目组骨干成员针对数字墨水汉字书写评估研究,申请一项发明专利,获得一项国家自然科学基金青年项目。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

张习文的其他基金

批准号:60605018
批准年份:2006
资助金额:8.00
项目类别:青年科学基金项目

相似国自然基金

1

人工智能方法及其在数字地震资料处理中的应用研究

批准号:49874009
批准年份:1998
负责人:王碧泉
学科分类:D0404
资助金额:15.00
项目类别:面上项目
2

流式文档排版格式的智能化分析与优化方法

批准号:61672105
批准年份:2016
负责人:李宁
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

用于数字喷墨印花墨水的聚羧酸/多元醇体系

批准号:50173012
批准年份:2001
负责人:房宽峻
学科分类:E0304
资助金额:23.00
项目类别:面上项目
4

支持笔交互的数字纸张生成与墨水表达

批准号:60975057
批准年份:2009
负责人:吴仲城
学科分类:F0604
资助金额:30.00
项目类别:面上项目