Hierarchical Network of Concepts

67 %
33 %
Information about Hierarchical Network of Concepts

Published on June 23, 2007

Author: shizhao

Source: slideshare.net

Description

作者 晋耀红

介绍:http://www.bullog.cn/blogs/huangzhangjin/archives/73677.aspx

HNC 语言理解技术及其应用 晋耀红 中国科学院声学研究所 ( HNC )北京大正语言知识处理研究院

提纲 公理系统 句类分析技术 算法层面 工程方面 应用系统 产品开发发展规划 总结与演示

公理系统

句类分析技术

算法层面

工程方面

应用系统

产品开发发展规划

总结与演示

3 个公理 ※ 公理1 存在众多的自然语言空间和唯一的概念联想脉络空间 存在两类空间的多种相互映射形式 ※ 公理2 自然语言处理=建立这两类空间相互映射的“算法” 自然语言理解=从语言空间向概念联想脉络空间的映射 =概念联想脉络的激活、扩展、浓缩、转换与存储 语句理解=确定该语句的句类表示式(句类表示式对号入座) =句类分析 ※ 公理3 语句理解知识=句类知识+ HNC 符号知识 +语义块之间的预期知识 +语义块构成知识 +远程语境知识

※ 公理1 存在众多的自然语言空间和唯一的概念联想脉络空间

存在两类空间的多种相互映射形式

※ 公理2 自然语言处理=建立这两类空间相互映射的“算法”

自然语言理解=从语言空间向概念联想脉络空间的映射

=概念联想脉络的激活、扩展、浓缩、转换与存储

语句理解=确定该语句的句类表示式(句类表示式对号入座)

=句类分析

※ 公理3 语句理解知识=句类知识+ HNC 符号知识

+语义块之间的预期知识

+语义块构成知识

+远程语境知识

句类分析 系统结构 有所为 三步曲:“中间切入,先上后下” 两支撑: 有所不为:舍轻就重 特点: 概念激活 分析结果的自动评价 句类分析与句法分析比较

系统结构

有所为

三步曲:“中间切入,先上后下”

两支撑:

有所不为:舍轻就重

特点:

概念激活

分析结果的自动评价

句类分析与句法分析比较

句类分析系统结构 源语言 语义块感知 & 句类假设 n 句类 句类检验 合理句类 语义块构成 句类表示式 & 句子语义 特殊处理 K- 调度

有所为:全局优先   句子理解处理过程的本质是概念联想脉络的激活和扩展。   注:√表示已经解决的比较好 ☆ 表示正在解决 一个局部范围内进行另一轮概念联想脉络的激活和扩展 。 两支撑 三步曲 ☆ ☆ ☆ √ √ 扩展 块扩、句蜕全局检验 要素检验 特殊词或词组专家处理 K 调度 语义块构成分析 句类检验 语义块感知和句类假设 √ √ √ √ 激活

  句子理解处理过程的本质是概念联想脉络的激活和扩展。

 

注:√表示已经解决的比较好

☆ 表示正在解决

一个局部范围内进行另一轮概念联想脉络的激活和扩展 。

有所不为:聚焦联想脉络 一是与基本理解无关或影响较小的常识。 常识知识的精华已经包含在概念表示和句类表示式中。 使用语境--概念表示 语用、语法--句类表示式 二是对语句基本理解不造成严重影响的语言隐知识 metaphor 和 metonymy 习惯用语(包括谚语、歇后语):“和尚打伞,无法无天”

一是与基本理解无关或影响较小的常识。

常识知识的精华已经包含在概念表示和句类表示式中。

使用语境--概念表示

语用、语法--句类表示式

二是对语句基本理解不造成严重影响的语言隐知识

metaphor 和 metonymy

习惯用语(包括谚语、歇后语):“和尚打伞,无法无天”

分析结果的自动评价 “ 自知之明”( self-knowledge ):“知之为知之,不知为不知,是知也。” 所谓自然语言理解的“自知之明”就是对无疑点分析结果的正确指示。 Based on the criterion of the sentence category and the association testing, ASC can itself evaluates the degree that one sentence satisfy the criterion. It can say that where satisfy more, where satisfy less and where don’t satisfy. three level of the degree of self-knowledge in ASC: sentence-degree, chunk-degree and word-degree I think self-knowledge is the intelligence that machine need, and it can.

“ 自知之明”( self-knowledge ):“知之为知之,不知为不知,是知也。”

所谓自然语言理解的“自知之明”就是对无疑点分析结果的正确指示。

Based on the criterion of the sentence category and the association testing,

ASC can itself evaluates the degree that one sentence satisfy the criterion. It can say that where satisfy more, where satisfy less and where don’t satisfy.

three level of the degree of self-knowledge in ASC: sentence-degree, chunk-degree and word-degree

I think self-knowledge is the intelligence that machine need, and it can.

Compare of the ASC and syntax parsing sentence Concepts words tagging Syantax tree Semantic analysis phrase Bottom-Up Concept association Association veins Concepts activate Sentence category chunk Up-Bottom Conceptual Space Linguistic Space

算法面对的问题:自然语言理解 20 难点 √ 1 多句类代码难点  11 省略难点 √ 2 Eg 与 El 相互干扰难点  12 因果句难点 3 浅层隐知识揭示难点 ☆ 13 难点的综合表现 4 深层隐知识揭示难点 14 体词多义模糊难点 √ 5 句类转换难点  15 两可双字词或多字词难点  6 主辅变换难点 √ 16 E 块省略句类的辨认难点 ☆ 7 复杂 JK 构成难点 √ 17 Ek 复合构成难点 √ 8 JK 分离难点  18 双字动态词难点 √ 9 句蜕难点  19 多字动态词难点 √ 10 块扩难点 ☆ 20 分词及伪词难点 注:√表示已经或基本解决 ☆ 表示部分解决  表示正在研究解决 其他有待解决

√ 1 多句类代码难点  11 省略难点

√ 2 Eg 与 El 相互干扰难点  12 因果句难点

3 浅层隐知识揭示难点 ☆ 13 难点的综合表现

4 深层隐知识揭示难点 14 体词多义模糊难点

√ 5 句类转换难点  15 两可双字词或多字词难点

 6 主辅变换难点 √ 16 E 块省略句类的辨认难点

☆ 7 复杂 JK 构成难点 √ 17 Ek 复合构成难点

√ 8 JK 分离难点  18 双字动态词难点

√ 9 句蜕难点  19 多字动态词难点

√ 10 块扩难点 ☆ 20 分词及伪词难点

注:√表示已经或基本解决

☆ 表示部分解决

 表示正在研究解决

其他有待解决

分析算法 研究实现的算法 正在研究的算法

研究实现的算法

正在研究的算法

研究实现的算法 1)    词语相关度计算: HNC 符号 语义距离计算 2)    基本概念短语的构成:独立于假设检验的预处理 3)    概念的激活:规则方式激活,总结出 22 个 v 属性,可以有效地控制分析 4)      汉语多动词的假设检验 5)       与动词相关的歧义结构的消歧 6)      多语串句子的处理 。利用 HNC 句类知识的预期处理语串间的关系。 7)      汉语特殊字词小专家处理 :的了和是有不在 涵盖了难点: 1, 2, 5, 7, 8, 9, 10, 13, 16, 17

1)    词语相关度计算: HNC 符号 语义距离计算

2)    基本概念短语的构成:独立于假设检验的预处理

3)    概念的激活:规则方式激活,总结出 22 个 v 属性,可以有效地控制分析

4)      汉语多动词的假设检验

5)       与动词相关的歧义结构的消歧

6)      多语串句子的处理 。利用 HNC 句类知识的预期处理语串间的关系。

7)      汉语特殊字词小专家处理 :的了和是有不在

涵盖了难点: 1, 2, 5, 7, 8, 9, 10, 13, 16, 17

正在研究的算法 a 语义块内部局部组合处理 b 专名识别: 现有基础:独立的、基于规则方法的识别算法 进一步工作:增加预期驱动能力 c 各类动态词的发现:利用汉语的特性“ 字义基元化,词义组合化 ” d 省略的恢复、指代的确定 e 句间关系确认 涵盖了难点: 11, 15, 18, 19, 20

a 语义块内部局部组合处理

b 专名识别:

现有基础:独立的、基于规则方法的识别算法

进一步工作:增加预期驱动能力

c 各类动态词的发现:利用汉语的特性“ 字义基元化,词义组合化 ”

d 省略的恢复、指代的确定

e 句间关系确认

涵盖了难点: 11, 15, 18, 19, 20

语义距离计算 semantic distance-computing (SDC) which computes the semantic distance between two concepts. Here is the meaning of two words which represented in the concepts, 光荣 (glory) uga00+ugc01+rd00aem1+u71381 任务 (mission,task) (ga00,rc01).   The SDC is to compare the letters and digits in the concept. If two concepts have more same symbols, their semantic distance is closer, and they relate more. the expert of string comparing, the expert of the semantic (or association) computing through SDC.

semantic distance-computing (SDC) which computes the semantic distance between two concepts.

Here is the meaning of two words which represented in the concepts,

光荣 (glory) uga00+ugc01+rd00aem1+u71381

任务 (mission,task) (ga00,rc01).

 

The SDC is to compare the letters and digits in the concept.

If two concepts have more same symbols, their semantic distance is closer, and they relate more.

the expert of string comparing, the expert of the semantic (or association) computing through SDC.

汉语多动词的假设检验 分别研究了动词团块的处理、多个动词关系两分研究,提出了一整套假设检验的处理策略,包括 30 个左右的 E 感知规则和句类演绎规则。 a) 语串内两个不相邻 E 的假设检验 b) 语串内相邻多动词(动词团块)的假设检验 c) 语串内不相邻多动词的假设检验 d) 语串间多个动词的假设检验

分别研究了动词团块的处理、多个动词关系两分研究,提出了一整套假设检验的处理策略,包括 30 个左右的 E 感知规则和句类演绎规则。

a) 语串内两个不相邻 E 的假设检验

b) 语串内相邻多动词(动词团块)的假设检验

c) 语串内不相邻多动词的假设检验

d) 语串间多个动词的假设检验

汉语多动词的假设检验- 1 语串内两个不相邻 E 的假设检验 处理对象是:基本的 E 语义功能配对 EpEr 优先假设检验 EgE l 并举的策略 Em 优先于语串间 < 参与 | 这个计划 | 的俄罗斯企业 > || 也遇到了 || 一些严重的问题。 YB || Y90 || YC <R411X*21 | RB2 | A >

语串内两个不相邻 E 的假设检验

处理对象是:基本的 E 语义功能配对

EpEr 优先假设检验

EgE l 并举的策略

Em 优先于语串间

< 参与 | 这个计划 | 的俄罗斯企业 > || 也遇到了 || 一些严重的问题。

YB || Y90 || YC

<R411X*21 | RB2 | A >

汉语多动词的假设检验- 2 语串内多动词的假设检验 相邻(动词团块) 团块是 Eg (或 E l )出现的标志, E l 一定出现在团块首尾 团块本身出现的位置影响 EgE l 假设 北京人 || 应该改变 || { 轻视 | 服务工作 } 的旧观念 / 。 { 有些国有企业的内部管理 | 滑坡 } || 导致 || { 经济效益 | 下降 } 。 不相邻 根据排队顺序多次两两处理 突尼斯外交部 ~ 在声明中 || 呼吁 [# 国际社会 || 敦促 || 以色列 ||# 从被占领土 || 撤军 #]#] 。 DA || D [# DBC #] DBC: [# A || XY || B ||[# YC #]#] YC:[# TB1 || T2b1#]

语串内多动词的假设检验

相邻(动词团块)

团块是 Eg (或 E l )出现的标志, E l 一定出现在团块首尾

团块本身出现的位置影响 EgE l 假设

北京人 || 应该改变 || { 轻视 | 服务工作 } 的旧观念 / 。

{ 有些国有企业的内部管理 | 滑坡 } || 导致 || { 经济效益 | 下降 } 。

不相邻

根据排队顺序多次两两处理

突尼斯外交部 ~ 在声明中 || 呼吁 [# 国际社会 || 敦促 || 以色列 ||# 从被占领土 || 撤军 #]#] 。

DA || D [# DBC #]

DBC: [# A || XY || B ||[# YC #]#]

YC:[# TB1 || T2b1#]

汉语多动词的假设检验- 3 语串间多个动词的假设检验 优先复句关系,动词的位置经常会指示块扩、句蜕关系 我们党已成为在全国执政五十多年、拥有六千四百多万党员的大党,中国人民已拥有一个欣欣向荣的社会主义祖国。 { 坚持 | 改革开放 } , => DB {X | B} { 大力发展 | 经济 } , => DB { X | B} 是 || 我们当前工作的重点。 jD || DC

语串间多个动词的假设检验

优先复句关系,动词的位置经常会指示块扩、句蜕关系

我们党已成为在全国执政五十多年、拥有六千四百多万党员的大党,中国人民已拥有一个欣欣向荣的社会主义祖国。

{ 坚持 | 改革开放 } , => DB

{X | B}

{ 大力发展 | 经济 } , => DB

{ X | B}

是 || 我们当前工作的重点。

jD || DC

与动词相关的歧义结构的消歧 汉语动词连见处理 汉语“和”、“同”等连接的多个动词的处理 一些典型的 E l J 歧义结构的消解 汉语“是”、“有”的处理 汉语常见 vp 短语的语义分析

汉语动词连见处理

汉语“和”、“同”等连接的多个动词的处理

一些典型的 E l J 歧义结构的消解

汉语“是”、“有”的处理

汉语常见 vp 短语的语义分析

E l J 歧义结构消解 “ K1+v+K2+ 的 +K3 ” 相同的形式,语义结构是否相同? 例 1. < 他 | 写 | 给领导 | 的这份报告 > || 值得 || 研究。 DB || jD1 || DC <TA | T3 | TB | T3C > 例 2. { 我们 | 开发 | 产品 } 的决心 / || 不会改变。 YB || Y { A | X | B } / 例 3. 我 || 看见 || { 他 | 打碎了 | 窗户的玻璃} 。 TA || T19 || TBC { A | X | B } 4. 香港 || 接受了 || 一项 { 开创 | 历史先河 } 的光荣任务 / 。 TA || T1X10 || XBC { X | B } / 5. 这 || 是 || 一个 < 立过 | 一等功 | 的连队 > 。 DB || jD || DC < Y0 | YC | YB >

“ K1+v+K2+ 的 +K3 ” 相同的形式,语义结构是否相同?

例 1. < 他 | 写 | 给领导 | 的这份报告 > || 值得 || 研究。

DB || jD1 || DC

<TA | T3 | TB | T3C >

例 2. { 我们 | 开发 | 产品 } 的决心 / || 不会改变。

YB || Y

{ A | X | B } /

例 3. 我 || 看见 || { 他 | 打碎了 | 窗户的玻璃} 。

TA || T19 || TBC

{ A | X | B }

4. 香港 || 接受了 || 一项 { 开创 | 历史先河 } 的光荣任务 / 。

TA || T1X10 || XBC

{ X | B } /

5. 这 || 是 || 一个 < 立过 | 一等功 | 的连队 > 。

DB || jD || DC

< Y0 | YC | YB >

多语串句子的处理 语串:以逗号、句号、问号等断开的语言片断 语串间的语义关系 1, 语义块的并列关系 2, 块扩关系 3, 句蜕关系 4, 辅块关系 5, 插入语 6, 复句 在欢庆改革开放取得辉煌业绩热烈气氛中,在党的十四届四中全会精神鼓舞下,全国各族人民迎来了中华人民共和国成立45周年的盛大节日。 事实表明,不触动封建根基的自强运动和改良主义,旧式的农民战争,资产阶级革命派领导的民主革命,以及照搬西方资本主义的其他种种方案,都不能完成救亡图存的民族使命和反帝反封建的历史任务。 初步建立起社会主义市场经济体制,全面实现经济和社会发展的第二步战略目标,是摆在我们面前的重要任务,也是关系到中国以怎样的面貌跨入21世纪的历史性课题。 八十年后的今天,我们党已成为在全国执政五十多年、拥有六千四百多万党员的大党,中国人民已拥有一个欣欣向荣的社会主义祖国 ………… ,也就是说,……。 我们要在党的基本理论、基本路线、基本纲领的指引下,继续坚持和完善公有制为主体、多种所有制经济共同发展的基本经济制度,坚持和完善社会主义市场经济体制,坚持和完善按劳分配为主体的多种分配方式,坚持和完善对外开放;坚持和完善工人阶级领导的、以工农联盟为基础的人民民主专政,坚持和完善人民代表大会制度和共产党领导的多党合作、政治协商以及民族区域自治制度,积极稳妥地推进政治体制改革,进一步扩大社会主义民主,依法治国,建设社会主义法治国家。

语串:以逗号、句号、问号等断开的语言片断

语串间的语义关系

1, 语义块的并列关系

2, 块扩关系

3, 句蜕关系

4, 辅块关系

5, 插入语

6, 复句

“ 有”的处理 “ 有”的语义功能 作不定指的指代。 “ 有人”、“有一个弟弟”等。这时翻译成英语一般是“ some” 、“ one” 等。 作 hv 。如:“他藏有三万册书” 构成高低搭配的 E , EQ+EH E=E+EH 的“有” Eg ,这时的句类是反应句 X20J=X2B+X20+XBC 。“有”所构成的 E+EH ,一般在句尾,句子采用非基本格式。 Ep ,这时的句类是反应句 X20J=X2B+X20+XBC 。“有”一般在句中,句子采用基本格式,而且一般会有双重块扩。 他 || 对这个问题 || 有研究。 他研究这个问题 他 || 对这件事情 || 有看法(有意见)。 我们 || 有理由 [# 相信 [# 中国 ~ 将于今年 || 加入 || WTO #]#] 。 X2B || X20 [# XBC #] [# D [# DBC #]#] [# RB1+fK || R11 || RB2 #]

“ 有”的语义功能

作不定指的指代。

“ 有人”、“有一个弟弟”等。这时翻译成英语一般是“ some” 、“ one” 等。

作 hv 。如:“他藏有三万册书”

构成高低搭配的 E , EQ+EH

E=E+EH 的“有”

Eg ,这时的句类是反应句 X20J=X2B+X20+XBC 。“有”所构成的 E+EH ,一般在句尾,句子采用非基本格式。

Ep ,这时的句类是反应句 X20J=X2B+X20+XBC 。“有”一般在句中,句子采用基本格式,而且一般会有双重块扩。

“ 有”的处理 作 Eg 的“有” “ 有”作 Eg 的语义,是根据其前的词语语义决定的。 如果其前是有生命的,则“有”表示具有、领属之义 如果前是无生命的,则“有”表存在。如: “ 有”经常形成 E1+E2 的复合句。如: 我 || 有 || 一个朋友 + 会开 || 飞机。 RB1||R11 || RB2 + X || B 有病不能来。( E1+E2 ) 这副画有三尺长。 她有气质。

作 Eg 的“有”

“ 有”作 Eg 的语义,是根据其前的词语语义决定的。

如果其前是有生命的,则“有”表示具有、领属之义

如果前是无生命的,则“有”表存在。如:

“ 有”经常形成 E1+E2 的复合句。如:

我 || 有 || 一个朋友 + 会开 || 飞机。

RB1||R11 || RB2

+ X || B

有病不能来。( E1+E2 )

工程方面 a 鲁棒性研究: 适应大规模新闻体语料分析 10G 语料,包括 1994 年人民日报、网络新闻等 b 可移植性研究: 系统可以适用于 Windows 、 Linux 、 Unix 等各种操作系统 c 规范化研究: 输入可以是 GB 、 Big5 、 Unicode 各种编码 输出以国际标准的 XML 标记,可扩展性好 d 与知识库的磨合,共同发展完善

a 鲁棒性研究:

适应大规模新闻体语料分析

10G 语料,包括 1994 年人民日报、网络新闻等

b 可移植性研究:

系统可以适用于 Windows 、 Linux 、 Unix 等各种操作系统

c 规范化研究:

输入可以是 GB 、 Big5 、 Unicode 各种编码

输出以国际标准的 XML 标记,可扩展性好

d 与知识库的磨合,共同发展完善

应用系统 意识形态过滤系统 基于语义的信息抽取技术―― 语境生成 文本分类系统 基于语义的 信息检索系统 文本辅助校对系统 策略: “语义+统计” 已完成校对的原型系统,语义的作用有待加强。

意识形态过滤系统

基于语义的信息抽取技术―― 语境生成

文本分类系统

基于语义的 信息检索系统

文本辅助校对系统

策略: “语义+统计”

已完成校对的原型系统,语义的作用有待加强。

过滤系统 意识形态过滤--区分正反两方面言论 必须依赖语言理解技术,必须进入语义和语境分析 关键词匹配和统计分类的技术在这里都显得力不从心 首创 立场过滤 的概念 过滤准确率和召回率都达到了 90% 以上。

意识形态过滤--区分正反两方面言论

必须依赖语言理解技术,必须进入语义和语境分析

关键词匹配和统计分类的技术在这里都显得力不从心

首创 立场过滤 的概念

过滤准确率和召回率都达到了 90% 以上。

立场过滤 立场过滤:根据文本的立场,对反动言论实施过滤。 以邪教过滤为例,必须区分是宣扬邪教,还是批判邪教,而仅对前者实施过滤。 文本的立场体现在作者对文本中对象的言行的 褒贬 描述上。 香港各界人士揭露 ××× 的真实面目。 ××× 是邪教。 美国谴责中国政府镇压 ××× 。 ××× 不是邪教。

立场过滤:根据文本的立场,对反动言论实施过滤。

以邪教过滤为例,必须区分是宣扬邪教,还是批判邪教,而仅对前者实施过滤。

文本的立场体现在作者对文本中对象的言行的 褒贬 描述上。

香港各界人士揭露 ××× 的真实面目。

××× 是邪教。

美国谴责中国政府镇压 ××× 。

××× 不是邪教。

意识形态过滤系统 文章 句类分析 语义结构 语境生成 立场判断 红黑判断 短时记忆 文本要点框架 对象立场网络图 文本性质: 1 绝对黑, 2 绝对红, 3 黑, 4 可疑 Ⅲ, 5 可疑Ⅱ, 6 可疑Ⅰ, 7 中性 HNC 概念知识库 HNC 语义知识库 HNC 褒贬语义知识库 红黑对象库

褒贬知识表示 Cbb 陈述者(作者)的褒贬 , 体现陈述者与陈述对象的立场关系 0 无褒贬倾向(为默认值,不必填) 1 绝对褒义词 陈述者与陈述对象立场一致 2 绝对贬义词 陈述者与陈述对象立场对立 3 相对褒义词 陈述者与陈述对象立场趋向一致 4 相对贬义词 陈述者与陈述对象立场趋向对立 5 相对褒义词 不表明陈述者的立场 6 相对贬义词 不表明陈述者的立场 7 绝对褒义词 不表明陈述者的立场 8 绝对贬义词 不表明陈述者的立场 Dbb 陈述对象的褒贬 , 体现第一陈述对象与第二陈述对象之间的立场关系 . 只用于涉及两个对象的 v 词语 0 无立场关系(为默认值,不必填) 1 一致,且第一对象对第二对象有褒义 2 对立,且第一对象对第二对象有贬义 3 一致 4 对立

Cbb 陈述者(作者)的褒贬 , 体现陈述者与陈述对象的立场关系

0 无褒贬倾向(为默认值,不必填)

1 绝对褒义词 陈述者与陈述对象立场一致

2 绝对贬义词 陈述者与陈述对象立场对立

3 相对褒义词 陈述者与陈述对象立场趋向一致

4 相对贬义词 陈述者与陈述对象立场趋向对立

5 相对褒义词 不表明陈述者的立场

6 相对贬义词 不表明陈述者的立场

7 绝对褒义词 不表明陈述者的立场

8 绝对贬义词 不表明陈述者的立场

Dbb 陈述对象的褒贬 , 体现第一陈述对象与第二陈述对象之间的立场关系 . 只用于涉及两个对象的 v 词语

0 无立场关系(为默认值,不必填)

1 一致,且第一对象对第二对象有褒义

2 对立,且第一对象对第二对象有贬义

3 一致

4 对立

几个例子 Cbb Dbb 指责 0 2 谴责 3 2 揭露 3 2 反对 0 4 支持 0 3 赞扬 3 1 批评 0 2 批判 4 2 镇压 4 2 沙阿斯指责以色列方面拖延谈判。 他们严厉谴责英方对中国内政的粗暴干涉。 美国谴责中国政府镇压 ××× 。

Cbb Dbb

指责 0 2

谴责 3 2

揭露 3 2

反对 0 4

支持 0 3

赞扬 3 1

批评 0 2

批判 4 2

镇压 4 2

沙阿斯指责以色列方面拖延谈判。

他们严厉谴责英方对中国内政的粗暴干涉。

美国谴责中国政府镇压 ××× 。

立场判断:对象立场网络图 美国谴责中国政府镇压 ××× 。 作者 0 谴责 .Cbb = 3 美国 0 镇压 .Cbb = 4 谴责 .Dbb = 2 中国政府 1 镇压 .Cbb = 4 镇压 .Dbb = 2 ×××0 作者是站在 ××× 的立场上的。

美国谴责中国政府镇压 ××× 。

作者 0 谴责 .Cbb = 3 美国 0

镇压 .Cbb = 4 谴责 .Dbb = 2

中国政府 1

镇压 .Cbb = 4 镇压 .Dbb = 2

×××0

作者是站在 ××× 的立场上的。

性能指标 通过 1 亿字语料测试, HNC 过滤器的正确率和召回率均可达到 90% 以上。 a 、 一批反动言论的语料 80M (共 30595 篇文章),判断为反动文本的正确率大于 90 %。 b 、中国官方的正面言论的语料 20M (共 7508 篇文章),判断为正面文本的正确率大于 90 %。 c 、 与反动言论容易混淆的有关佛教、气功、保健等语料 15M (共 9499 篇文章),判断为中性文本的正确率大于 95 %。 系统速度(硬件环境是 PⅢ866 , 256M 内存): 分析速度 >1M 字节 / 每秒。

通过 1 亿字语料测试, HNC 过滤器的正确率和召回率均可达到 90% 以上。

a 、 一批反动言论的语料 80M (共 30595 篇文章),判断为反动文本的正确率大于 90 %。

b 、中国官方的正面言论的语料 20M (共 7508 篇文章),判断为正面文本的正确率大于 90 %。

c 、 与反动言论容易混淆的有关佛教、气功、保健等语料 15M (共 9499 篇文章),判断为中性文本的正确率大于 95 %。

系统速度(硬件环境是 PⅢ866 , 256M 内存):

分析速度 >1M 字节 / 每秒。

语境生成:文本要点框架 领域 DOM : 事件范畴的静态描述;领域信息蕴含在相关词语的 HNC 语义符号中。 情景框架 SIT : 事件的动态描述 干什么:动作类型 E 、干的内容 C 参与者(谁在干什么):对象 B 、作用者 A 情景框架是内容语义的抽象和提取。 背景框架 BAC : 以事件的特定背景类型为中心 条件:陈述中心的时间空间信息 目的:善意、恶意或其它,语言中的褒贬倾向 方式:直接、间接,和平、武力,或其他 参照:“我国”—中国 工具:精神、物质,具体、抽象,或其他 立场=目的+参照

领域 DOM : 事件范畴的静态描述;领域信息蕴含在相关词语的 HNC 语义符号中。

情景框架 SIT : 事件的动态描述

干什么:动作类型 E 、干的内容 C

参与者(谁在干什么):对象 B 、作用者 A

情景框架是内容语义的抽象和提取。

背景框架 BAC : 以事件的特定背景类型为中心

条件:陈述中心的时间空间信息

目的:善意、恶意或其它,语言中的褒贬倾向

方式:直接、间接,和平、武力,或其他

参照:“我国”—中国

工具:精神、物质,具体、抽象,或其他

立场=目的+参照

语境框架例子 时值北约轰炸我驻南使馆一周年之际,一些人借机攻击我外交部在应对该事件中的表现,丑化、漫骂有关领导,影响极坏,要求马上删除这些内容。 语境框架: 领域信息:政治活动( a11 ) 情景信息: 攻击( T3X*21 ) + 外交部( pea14 ) 丑化( T3X*21 ) + 国家领导人( pa11 ) 背景信息: 条件:北约轰炸我驻南使馆一周年 参照:中国(汉字表示,确省为中国) 目的:消极 参照 + 目的 = 恶意、贬

时值北约轰炸我驻南使馆一周年之际,一些人借机攻击我外交部在应对该事件中的表现,丑化、漫骂有关领导,影响极坏,要求马上删除这些内容。

语境框架:

领域信息:政治活动( a11 )

情景信息:

攻击( T3X*21 ) + 外交部( pea14 )

丑化( T3X*21 ) + 国家领导人( pa11 )

背景信息:

条件:北约轰炸我驻南使馆一周年

参照:中国(汉字表示,确省为中国)

目的:消极

参照 + 目的 = 恶意、贬

语境生成特点 语境生成:文本内容形式化技术,形式化成语境三要素,即领域、情景、背景。 应用领域: 信息抽取 信息过滤 信息分类 信息检索 相关文章发表在“计算机研究与发展”、“计算机工程与应用” “ 中国 || 争取举办 || 西元 2000 年奥运” DOM:a0 而不是 a339 “ 联合国维和部队 || 如何帮助 [# 海地 || 恢复 || 民主制度 #] ” DOM:a1 而不是 a4

语境生成:文本内容形式化技术,形式化成语境三要素,即领域、情景、背景。

应用领域:

信息抽取

信息过滤

信息分类

信息检索

相关文章发表在“计算机研究与发展”、“计算机工程与应用”

“ 中国 || 争取举办 || 西元 2000 年奥运” DOM:a0 而不是 a339

“ 联合国维和部队 || 如何帮助 [# 海地 || 恢复 || 民主制度 #] ” DOM:a1 而不是 a4

文本分类系统 面向新闻网站的文本分类系统 特色:分类标准的可制定 XML 技术 + HNC 领域 处于实验阶段,测试几百个网页(新华网),分类准确率 95% 以上。

面向新闻网站的文本分类系统

特色:分类标准的可制定

XML 技术 + HNC 领域

处于实验阶段,测试几百个网页(新华网),分类准确率 95% 以上。

HNC 领域例子 a1 政治 a10 制度 政策 a11 组织 a12 治理与管理 职能 a13 政治斗争 敌视 敌对 抵制 a14 外交活动 a15 征服与反征服 a2 经济 a3 文化 a4 军事 a5 法律 a6 科技 a7 教育 a8 卫生 外交活动 a14 的概念延伸结构 一级延伸结构表示式 a14:(3,m,t=b,k=4) a143 “ 外交政策” a14m “ 外交活动的基本形式” a141 “ 公开外交” a142 “ 秘密外交” a14t=b “ 外交活动的 3 个基本侧面” a149 “ 使节活动” a14a “ 外交斗争” a14b “ 干涉与反干涉” a14k=4 “ 外交活动的 4 类交往” a141 “ 官方交往” a142 “ 民间交往” a143 “ 国际会议” a144 “ 国事访问”

a1 政治

a10 制度 政策

a11 组织

a12 治理与管理 职能

a13 政治斗争 敌视 敌对 抵制

a14 外交活动

a15 征服与反征服

a2 经济

a3 文化

a4 军事

a5 法律

a6 科技

a7 教育

a8 卫生

外交活动 a14 的概念延伸结构

一级延伸结构表示式

a14:(3,m,t=b,k=4)

a143 “ 外交政策”

a14m “ 外交活动的基本形式”

a141 “ 公开外交”

a142 “ 秘密外交”

a14t=b “ 外交活动的 3 个基本侧面”

a149 “ 使节活动”

a14a “ 外交斗争”

a14b “ 干涉与反干涉”

a14k=4 “ 外交活动的 4 类交往”

a141 “ 官方交往”

a142 “ 民间交往”

a143 “ 国际会议”

a144 “ 国事访问”

领域与现行分类的关系 HNC 领域 一般分类 语义分类 实用原则或学科分类 精确 模糊 颗粒度小 颗粒度大 可直接从内容提取 需要一定的专业水平 组合性好 组合困难 HNC 领域可以组合出目前流行的各种分类 映射人民日报、人民网分类,准确率接近 100%

HNC 领域 一般分类

语义分类 实用原则或学科分类

精确 模糊

颗粒度小 颗粒度大

可直接从内容提取 需要一定的专业水平

组合性好 组合困难

HNC 领域可以组合出目前流行的各种分类

映射人民日报、人民网分类,准确率接近 100%

基于语境的信息检索系统 基于知识(概念)的新一代智能搜索系统。 信息检索的过程就是概念的激活、查找、匹配的过程。 特点:以语境框架为依托,建立信息索引库。 领域:进行 Topic 聚类 情景框架: 有效地发现 Event 以及它们之间的关系 背景框架:时空、立场、条件、工具等限定 希望解决传统检索技术普遍存在的返回结果信息太多,大量信息与检索要求无关的问题。 已完成架构设计,以及任意字词串的布尔检索,正集成语境技术

基于知识(概念)的新一代智能搜索系统。

信息检索的过程就是概念的激活、查找、匹配的过程。

特点:以语境框架为依托,建立信息索引库。

领域:进行 Topic 聚类

情景框架: 有效地发现 Event 以及它们之间的关系

背景框架:时空、立场、条件、工具等限定

希望解决传统检索技术普遍存在的返回结果信息太多,大量信息与检索要求无关的问题。

已完成架构设计,以及任意字词串的布尔检索,正集成语境技术

检索示例 中国争取举办西元 2000 年奥运。( DOM:a0 ? a339 ?) 联合国维和部队如何帮助海地恢复民主制度。 ( DOM:a1 ? a4 ?) 联合国对伊拉克经济制裁的辩论。 ( SIT : T3 + TA + T3C ) 中国关于美国政府向台湾出售F-16战斗机的反应。 ( SIT : X20 + X2B + XBC[# T0+TA+TB+TC #] ) 苏联在海湾战争中如何担任调停的角色 。 ( BAC :在海湾战争中 , SIT : X+A+B )

中国争取举办西元 2000 年奥运。( DOM:a0 ? a339 ?)

联合国维和部队如何帮助海地恢复民主制度。 ( DOM:a1 ? a4 ?)

联合国对伊拉克经济制裁的辩论。

( SIT : T3 + TA + T3C )

中国关于美国政府向台湾出售F-16战斗机的反应。

( SIT : X20 + X2B + XBC[# T0+TA+TB+TC #] )

苏联在海湾战争中如何担任调停的角色 。

( BAC :在海湾战争中 , SIT : X+A+B )

试验考察

产品开发 HNC 智能信息过滤器 单机版:已上市 在河北保定、黑龙江大庆等城市政府安装 近期给河北、吉林教育系统按照 网络版:已开发成功 计划在学校、政府机关推广。 过滤插件: 邮件插件、短消息插件、防火墙插件等

HNC 智能信息过滤器

单机版:已上市

在河北保定、黑龙江大庆等城市政府安装

近期给河北、吉林教育系统按照

网络版:已开发成功

计划在学校、政府机关推广。

过滤插件:

邮件插件、短消息插件、防火墙插件等

发展规划 产品方向概况简要如下: ( 1 )智能信息分类系统。 ( 2 )行业咨询服务系统。 ( 3 )智能搜索引擎系统。 ( 4 )电子辅助校对系统。 ( 5 )机器翻译系统。 ( 6 )人机对话系统。 ( 7 )语言信息挖掘系统。 ( 8 )其他智能系统领域。

产品方向概况简要如下:

( 1 )智能信息分类系统。

( 2 )行业咨询服务系统。

( 3 )智能搜索引擎系统。

( 4 )电子辅助校对系统。

( 5 )机器翻译系统。

( 6 )人机对话系统。

( 7 )语言信息挖掘系统。

( 8 )其他智能系统领域。

 

总结 专利 2 个( 1998 、 2001 ) 产品 1 个 软件著作权登记 2 个 发表论文数十篇 应用技术 2 个:语境生成技术、立场判断技术 应用系统 5 个 HNC 研究院 注册资本 300 万 --  1000 万人民币 开发人员 2 人 --  25 人,培养出一支懂 HNC 的开发团队,这是我们最珍贵的资源

专利 2 个( 1998 、 2001 )

产品 1 个

软件著作权登记 2 个

发表论文数十篇

应用技术 2 个:语境生成技术、立场判断技术

应用系统 5 个

HNC 研究院

注册资本 300 万 --  1000 万人民币

开发人员 2 人 --  25 人,培养出一支懂 HNC 的开发团队,这是我们最珍贵的资源

系统演示 信息过滤产品--单机版 立场判断技术 文本分类系统 ……

信息过滤产品--单机版

立场判断技术

文本分类系统

……

Q&A 谢谢!!

谢谢!!

Add a comment

Related pages

【hierarchical_network_of_concepts】什么意思_英语 ...

hnc hierarchical network of concepts hnc(概念层次网络) hierarchical network of concepts theory 概念层次网络理论 ...
Read more

Hierarchical network model - Wikipedia, the free encyclopedia

Concept. The hierarchical network model is part of the scale-free model family sharing their main property of having proportionally more hubs among the ...
Read more

Biological Neural Networks: Hierarchical Concept of Brain ...

Bücher bei Weltbild: Jetzt Biological Neural Networks: Hierarchical Concept of Brain Function von Konstantin V. Baev portofrei bestellen bei Weltbild ...
Read more

English Semantic Feature Processing and Sentence Structure ...

English Semantic Feature Processing and Sentence Structure Analysis Based on Hierarchical Network of Concepts Bangqing Pei
Read more

Semantic Analysis Model of Chinese MMT Based on ...

Semantic Analysis Model of Chinese MMT Based on Hierarchical Network of Concepts in Chinese–English Machine Translation. Look Inside. Seite 1.
Read more

Hierarchical Network Design Overview (1.1) > Cisco ...

Hierarchical Network Design Overview (1.1) The Cisco hierarchical (three-layer) internetworking model is an industry wide adopted model for designing a ...
Read more

Lan design - The Hierarchical Network Model (CCNA 3.1 ...

Lan design – The Hierarchical Network Model ... We'll learn about the three layers of the hierarchical network design ... Basic Switch Concepts and ...
Read more

HNC - Hierarchical Network of Concepts

What does HNC stand for? Definition of HNC in the Abbreviations.com acronyms and abbreviations directory.
Read more

Semantic Memory - Psy241wiki - University of Sheffield

Semantic memory consists of networks of associations between ... The Hierarchical Network mModel ... When a concept is 'activated' in semantic memory, ...
Read more