富士施乐开发出了新型文字识别技术模仿人脑信息处理

前沿科技

2013/05/04 14:56:34

富士施乐于2013年4月12日宣布，该公司开发出了新型文字识别技术，通过模仿人脑的视觉信息处理方式，识别各种文字（图1）。这项技术利用了大脑具备的“方位交差抑制性”，以及分级增加识别特征复杂度的特性。包括手写文字在内，可识别多个语种（日文、中文、韩文）的大约3万个单字。

文字识别分两个步骤，一是在识别文字特征（线的朝向等）时，提取特征的粒度，分级增加复杂度。该步骤模仿的是大脑具备的初级视皮层（V1）、二级视皮层（V2）之类的分级构造。在大脑中，初级视皮层（V1）会对具有特定倾斜度的线段做出反应，二级视皮层（V2）则会对两条线段组成的十字和夹角做出反应。第二个步骤是在各个分级中，判断提取的特征与已经学习的文字的特征是否吻合（线的倾斜方向是否一致等）（图2）。在识别过程中，当某个特征存在明显差异（线段的倾斜方向差别大，重叠时发生交错等）时，考虑采用这一步骤。这模仿的是大脑的“方位交差抑制性”这一特性。有研究表明，大脑在受到不同特征的刺激时，会抑制自身对特征刺激做出的反应。

此次开发的算法分为利用方位交差抑制性的原理，判断各个特征是否吻合的“子采样部”，以及利用分级构造提取特征的“卷积运算部”两部分，通过用这两部分算法分级重叠、反复交叉实施来识别，最终判断是哪一个文字。

次阅读

分享到