神经网络的基本理论.ppt
第四章 神经网络的基本理论 1 模糊控制 从 人的经验出发,解决了智能控制中人类 语言的描述和推理问题, 尤其是一些不确定性语言的 描述和推理问题,从而在机器模拟人脑的感知、推理 等智能行为方面迈出了重大的一步。 模糊控制在处理数值数据、自学习能力等方面还 远没有达到人脑的境界。人工神经网络从另一个角度 出发,即 从人脑的生理学和心理学着手 ,通过人工模 拟人脑的工作机理来实现机器的部分智能行为。 引言 2 人工神经网络(简称神经网络, Neural Network) 是 模拟人脑思维方式的数学模型。 神经网络是在现代生物学研究人脑组织成果的基础上提出 的,用来 模拟人类大脑神经网络的结构和行为 。神经网络反映 了人脑功能的基本特征,如并行信息处理、学习、联想、模式 分类、记忆等。 20世纪 80年代以来,人工神经网络( ANN, Artificial Neural Network)研究取得了突破性进展。 神经网络控制是将 神经网络与控制理论相结合而发展起来的智能控制方法。 它已 成为智能控制的一个新的分支,为解决复杂的非线性、不确定 、未知系统的控制问题开辟了新途径。 引言 3 神经生理学和神经解剖学的研究表明,人脑极其 复杂,由一千多亿个神经元交织在一起的网状结构 构成,其中大脑皮层约 140亿个神经元,小脑皮层约 1000亿个神经元。 人脑能完成智能、思维等高级活动,为了能利用 数学模型来模拟人脑的活动,导致了神经网络的研 究。 神经系统的基本构造是神经元 神经细胞 ,它是处 理人体内各部分之间相互信息传递的基本单元。 生物神经元 4 单个神经元的解剖图单个神经元的解剖图 生物神经元 每个神经元都由一个细胞体,一个连接其他神经元 的轴突和一些向外伸出的其它较短分支 树突组成 。 5 轴突功能是将本神经元的输出信号 兴奋 传递给别 的神经元,其末端的许多神经末梢使得兴奋可以同时 传送给多个神经元。 生物神经元 树突的功能是接受来自其它神经元的兴奋。 神经元细胞体将接收到的所有信号进行简单地处理后 ,由轴突输出。 神经元的轴突与另外神经元神经末梢相连的部分称为 突触。 6 神经元的构成 ( 1)细胞体(主体部分)包括细胞质、细胞膜和细胞 核; ( 2)树突用于为细胞体传入信息; ( 3)轴突为细胞体传出信息,其末端是轴突末梢,含 传递信息的化学物质; ( 4)突触是神经元之间的接口( 104105个 /每个神经 元)。 通过树突和轴突,神经元之间实现了信息的传递。 生物神经元 7 神经元之间的联系主要依赖其突触的联接作用 。这种 突 触的联接是可塑的 ,也就是说突触特性的变化是受到外界 信息的影响或自身生长过程的影响。生理学的研究归纳有 以下几个方面的变化 1突触传递效率的变化。首先是突触的膨胀以及由此产 生的突触后膜表面积扩大,从而突触所释放出的传递物质 增多,使得突触的传递效率提高。其次是突触传递物质质 量的变化,包括比例成分的变化所引起传递效率的变化。 2突触接触间隙的变化。在突触表面有许多形状各异的 小凸芽,调节其形状变化可以改变接触间隙,并影响传递 效率。 生物神经元 8 3突触的发芽。当某些神经纤维被破坏后,可能又 会长出新芽,并重新产生附着于神经元上的突触.形 成新的回路。由于新的回路的形成,使得结合模式发 生 变化,也会引起传递效率的变化。 4突触数目的增减。由于种种复杂环境条件的刺激 等原因,或者由于动物本身的生长或衰老,神经系统 的突触数目会发生变化,并影响神经元之间的传递效 率。 生物神经元 9 神经元对信息的接受和传递都是通过突触来进行的。 单个神经元可以从别的细胞接受多个输入。 由于输入分布于不 同的部位,对神经元影响的比例 权重 是不相同的。另外,各突触 输入抵达神经元的先后时间也不一祥。因此, 一个神经元接受的 信息,在时间和空间上常呈现出一种复杂多变的形式,需要神经 元对它们进行积累和整合加工,从而决定其输出的时机和强度。 正是神经元这种整合作用,才使得亿万个神经元在神经系统中有 条不紊、夜以继日地处理各种复杂的信息,执行着生物中枢神经 系统的各种信息处理功能。 多 个神经元以突触联接形成了一个神经网络 。研究表明,生物 神经网络的功能决不是单个神经元生理和信息处理功能的简单叠 加,而是一个有层次的、多单元的动态信息处理系统。 它们有其 独特的运行方式和控制机制,以接受生物内外环境的 输入信息,加以综合分折处理,然后调节控制机体对环境作出适 当的反应。 生物神经元 10 突触的信息处理 v生物神经元传递信息的过程为多输入 、 单输出 v神经元各组成部分的功能来看,信息的处理与传 递主要发生在突触附近 v当神经元细胞体通过轴突传到突触前膜的脉冲幅 度达到一定强度,即超过其阈值电位后,突触前 膜将向突触间隙释放神经传递的化学物质 v突触有两种类型,兴奋性突触和抑制性突触。前 者产生正突触后电位,后者产生负突触后电位 生物神经元 11 神经元具有如下功能 v1 兴奋与抑制 如果传入神经元的冲动经整合后使 细胞膜电位升高, 超过动作电位的阈值时 即为兴奋状 态, 产生神经冲动 ,由轴突经神经末梢传出。如果传 入神经元的冲动经整合后使细胞膜电位降低, 低于动 作电位的阈值时 即为抑制状态, 不产生神经冲动 。 v2 学习与遗忘 由于神经元结构的可塑性,突触的 传递作用可增强和减弱,因此神经元具有学习与遗忘 的功能。 生物神经元 12 以上是从宏观上分析了人脑信息处理特点。从信息系统研究的观点 出发,对于 人脑 这个智能信息处理系统,有如下一些固有特征 1并行分布处理的工作模式。 实际上大脑中单个神经元的信息处理速度是很慢的,每次约 1毫秒 ms, 比通常的电子门电路要慢几个数量级。每个神经元 的处理功能也很有限,估计不会比计算机的一条指令更复杂。 但是人脑对某一复杂过程的处理和反应却很快,一般只需几 百毫秒。例如要判定人眼看到的两个图形是否一样,实际上约需 400 ms, 而在这个处理过程中,与脑神经系统的一些主要功能, 如视觉、记亿、推理等有关。按照上述神经元的处理速度,如果 采用串行工作模式,就必须在几百个串行步内完成,这实际上是 不可能办到的。因此只能把它看成是一个由众多神经元所组成的 超高密度的并行处理系统。例如在一张照片寻找一个熟人的面 孔,对人脑而言,几秒钟便可完成,但如用计算机来处理,以现 有的技术,是不可能在短时间内完成的。由此可见,大脑信息处 理的并行速度已达到了极高的程度。 生物神经元 13 v 2神经系统的可塑性和自组织性。 v 神经系统的可塑性和自组织性与人脑的生长发育过 程有关。例如,人的幼年时期约在 9岁左右,学习语言的能 力十分强,说明在幼年时期,大脑的可塑性和柔软性特别 良好。从生理学的角度看,它体现在突触的可塑性和联接 状态的变化,同时还表现在神经系统的自组织特性上。例 如在某一外界信息反复刺激下.接受该信息的神经细胞之 间的突触结合强度会增强。这种可塑性反映出大脑功能既 有先天的制约因素,也有可能通过后天的训练和学习而得 到加强。 神经网络的学习机制就是基于这种可塑性现象, 并通过修正突触的结合强度来实现的。 生物神经元 14 v 3信息处理与信息存贮合二为一。 v 大脑中的信息处理与信息存贮是有机结合在一起的 ,而不像现行计算机那样.存贮地址和存贮内容是彼此分 开的。由于大脑神经元兼有信息处理和存贮功能,所以在 进行回亿时,不但不存在先找存贮地址而后再调出所存内 容的问题,而且还可以由一部分内容恢复全部内容。 v 4信息处理的系统性 v 大脑是一个复杂的大规模信息处理系统,单个的元 件 “神经元 ”不能体现全体宏观系统的功能 。 实际上,可以 将大脑的各个部位看成是一个大系统中的许多子系统。各 个子系统之间具有很强的相互联系,一些子系统可以调节 另一些子系统的行为。例如,视觉系统和运动系统就存在 很强的系统联系,可以相互协调各种信息处理功能。 生物神经元 15 v 5能接受和处理模糊的、模拟的、随机的信息。 v 6求满意解而不是精确解。 人类处理日常行为时,往往都不是一定要按最 优 或最精确的方式去求解,而是以能解决问题为 原 则,即求得满意解就行了。 v 7系统的恰当退化和冗余备份 鲁棒性和容错 性 。 生物神经元 16 决定神经网络模型性能三大要素为 v1 神经元(信息处理单元)的特性; v2 神经元之间相互连接的形式 拓扑结构; v3 为适应环境而改善性能的学习规则。 生物神经元 17 4.1 人工神经网络模型 Ø人工神经网络的数学模型人工神经网络的数学模型 人工神经网络是在结构和功能上对生物神经网络的某 种程度的模拟和逼近。 v直观理解 § 神经网络是一个并行和分布式的信息处理网络 结构 § 它一般由大量神经元组成 每个神经元只有一个输出,可以连接到很 多其他的神经元 每个神经元输入有多个连接通道,每个连 接通道对应于一个连接权系数 18 一、 MP模型 MP模型属于一种阈值元件模型,它是由美国 Mc Culloch和 Pitts提出的最早神经元模型之一。 MP模 型是大多数神经网络模型的基础。 人工神经网络基本模型 4.1 人工神经网络模型 19 y x1 x2 x n w1 w2 w n ·· · q 标准 MP模型 4.1 人工神经网络模型 20 wij 代表神经元 i与神经元 j之间的连接强度 模拟生物 神经元之间突触连接强度 , 称之为 连接权 ; ui 代表神经元 i的活跃值,即 神经元状态 ; xj 代表神经元 j的输出,即是神经元 i的一个 输入 ; θi 代表神经元 i的 阈值 。 函数 f表达了神经元的输入输出特性。在 MP模型中, f定 义为阶跃函数 /激发函数 4.1 人工神经网络模型 21 如果把阈值 θi看作为一个特殊的权值,则可改写为 其中, w0i= -θi, v0= 1 为用连续型的函数表达神经元的非线性变换能力,常 采用 s型函数 该函数的图像如下图所示 4.1 人工神经网络模型 22 4.1 人工神经网络模型 23 MP模型在发表时并没有给出一个学习算法来调整 神经元之间的连接权。但是,我们可以 根据需要,采 用一些常见的算法来调整神经元连接权,以达到学习 目的。下面介绍的 Hebb学习规则就是一个常见学习 算法。 Hebb学习规则 神经网络具有学习功能。对于人工神 经网络而言,这种学习归结为神经元连接权的变化。 调整 wij的原则为若第 i和第 j个神经元同时处于兴奋 状态,则它们之间的连接应当加强,即 Δwij= αuivj 这一规则与 “条件反射 ”学说一致,并已得到神经细胞 学说的证实。 α是表示学习速率的比例常数。 4.1 人工神经网络模型 24 4.2 神经网络的定义和特点 神经网络是在现代生物学研究人脑组织成果的基础上提 出的,用来 模拟人类大脑神经网络的结构和行为 ,它从 微观结构和功能上对人脑进行抽象和简化,是模拟人类 智能的一条重要途径,反映了人脑功能的若干基本特征 ,如并行信息处理、学习、联想、模式分类、记忆等。 n 定义 神经网络系统是由大量的神经元,通过广泛地互相连接 而形成的复杂网络系统。 25 n 特点 ( 1) 非线性映射逼近能力。 任意的连续非线性函数映射关系可由多层神经 网络以任意精度加以逼近。 ( 2) 自适应性和自组织性 。 神经元之间的连接具有多样性,各神经元之间 的连接强度具有可塑性,网络可以通过学习与训练进行自组织,以适应不同 信息处理的要求。 ( 3) 并行处理性。 网络的各单元可以同时进行类似的处理过程,整个网络 的信息处理方式是大规模并行的,可以大大加快对信息处理的速度。 ( 4) 分布存储和容错性。 信息在神经网络内的存储按内容分布于许多神经 元中,而且每个神经元存储多种信息的部分内容。网络的每部分对信息的存 储具有等势作用,部分的信息丢失仍可以使完整的信息得到恢复,因而使网 络具有容错性和联想记忆功能。 ( 5) 便于集成实现和计算模拟。 神经网络在结构上是相同神经元的大规模 组合,特别适合于用大规模集成电路实现。 4.2 神经网络的定义和特点 26 4.3 感知器模型 感知器是一种早期的神经网络模型,由美国学者 F.Rosenblatt于 1957年提出 .感知器中第一次引入了 学习的概念,使人脑所具备的学习功能在基于符号处 理的数学到了一定程度的模拟,所以引起了广泛的关 注。 1.简单感知器 简单感知器模型实际上仍然是 MP模型 的结构, 但是它通过采用监督学习来逐步增强模式划分的能 力,达到所谓学习的目的。 27 其结构如下图所 示 感知器处理单元对 n个输入进行加权和操作 v即 其中, Wi为第 i个输入到处理单元的连接权值 θ为 阈值。 f取阶跃函数 . y x1 x2 x n w1 w2 w n ·· · q 4.3 感知器模型 28 感知器在形式上与 MP模型差不多,它们之间的区别 在于神经元间连接权的变化。感知器的连接权定义为可 变的,这样感知器就被赋予了学习的特性。 利用简单 感知器可以实现逻辑代数中的一些运算。 Yfw1x1w2x2-θ 1“与 ”运算。 当取 w1= w2= 1, θ= 1.5时,上式完成逻 辑 “与 ”的运算。 4.3 感知器模型 29 2“或 ”运算, 当取 wl= w2= 1, θ = 0.5时,上式完成逻辑 “或 ”的运 算。 3“非 ”运算, 当取 wl-1, w2= 0, θ = -1时.完成逻辑 “非 ”的运算。 4.3 感知器模型 30 简单感 知器引入的学习算法称之为误差学习算法 。 该算法是神经网络学习中的一个重要算法,并已被 广 泛应用。现介绍如下 误差型学习规则 1选择一组初始权值 wi0。 2计算某一输入模式对应的实际输出与期望输出 的 误差 δ。 4.3 感知器模型 31 3如果 δ小于给定值,结束,否则继续。 4更新权值 阈值可视为输入恒为 1的一个权值 Δwi( t1)= wi( t1) - wi( t)= η[d yt]xi。 式中 η为在区间 0, 1上的一个常数,称为学习步长,它的 取值与训练速度和 w收敛的稳定性有关; 通常 η不能太大,因为太大会影响 wi( t)的稳定, η也不 能太小,因为太小会使 wi( t)的收敛速度太慢; d、 y为神经元的期望输出和实际输出; xi为神经元的第 i个 输入 。 5返回 2,重复,直到对所有训练样本模式,网络输出 均能满足要求。 4.3 感知器模型 32 2. 多层感知器 如果在输入和输出层间加上一层或多层的神经元 隐 层 神经元 ,就可构成多层前向网络,这里称为多层感知器 。 4.3 感知器模型 33 4.4 神经网络的分类 目前神经网络模型的种类相当丰富,已有数十种 神经网络模型。 典型的神经网络有多层前向传播网络 ( BP网络 )、 Hopfield网络、 CMAC小脑模型 、 ART网络 、 BAM双向联想记忆网络、 SOM自组织网络、 Blotzman机网络和 Madaline网络等 34 4.4 神经网络的分类 ( 1)根据神经网络的连接方式,神经网络可分为前向网络、反馈网络 、自组织网络 ① 前向网络 神经元分层排列,组成输入层、隐含层和输出层。神经元分层排列,组成输入层、隐含层和输出层。 每一层的神经元只接受前一层神经元的输入。输入模式经过各每一层的神经元只接受前一层神经元的输入。输入模式经过各 层的顺次变换后,由输出层输出。在各神经元之间不存在反馈层的顺次变换后,由输出层输出。在各神经元之间不存在反馈 。感知器和误差反向传播网络采用前向网络形式。。感知器和误差反向传播网络采用前向网络形式。 35 4.4 神经网络的分类 ② 反馈网络 ③③ 该网络结构在输出层到输入层存在反馈,即每一个输入节点都该网络结构在输出层到输入层存在反馈,即每一个输入节点都 有可能接受来自外部的输入和来自输出神经元的反馈。这种神经网有可能接受来自外部的输入和来自输出神经元的反馈。这种神经网 络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。 Hopfield神经网络是反馈网络中最简单且应用最广泛的模型,神经网络是反馈网络中最简单且应用最广泛的模型, 它具有联想记忆的功能,如果将它具有联想记忆的功能,如果将 Lyapunov函数定义为寻优函数,函数定义为寻优函数, Hopfield神经网络还可以解决寻优问题。神经网络还可以解决寻优问题。 36 4.4 神经网络的分类 ③ 自组织网络 当神经网络在接受外界输入时,网络将会分成不同的区域,不同区域具 有不同的响应特征,即不同的神经元以最佳方式响应不同性质的信号激励, 从而形成一种拓扑意义上的特征图,该图实际上是一种非线性映射。这种映 射是通过无监督的自适应过程完成的,所以也称为自组织特征图。 37 4.4 神经网络的分类 ( 2)从网络的学习方式上划分,神经网络可分为有导师学习网络和无导师 学习网络。 ① 有导师学习神经网络,又称监督学习 supervised learning 网络的输出和期望的输出 即导师信号)进行比较,然后根据两者之间 的差异调整网络的权值,最终使差异变小。 38 4.4 神经网络的分类 ② 无导师学习神经网络,又称无监督学习( unsupervised learning) 或自组织学习( self-organized learning) 输入模式进入网络后,网络按照一种预先设定的规则(如竞争规则)自 动调整权值,使网络最终具有模式分类等功能。 39 4.4 神 网 的分 神经网络分类标准不同,方法多样 40 4.5 多层前向 BP神经网络 n 多层前向神经网络的结构 一个输入层,一个输出层,多个隐层 ,信号沿输入 输出的方向逐层传递。 j p p1 xp 1 x pn t pk t pm Op1 O pn Op2 隐层 wj1 wj n 输入层 隐层 输出层 信息流 · · · · · · pm 41 v激活函数 § 必须处处可导 一般都使用 S型函数 v使用 S型激活函数时 BP网络输入与输出关系 § 输入 § 输出 4.5 多层前向 BP神经网络 42 § 输出的导数 § 根据 S型激活函数的图形可知 ,对神经网络进行训练,应该将 net的 值尽量控制在收敛比较快的范围内 4.5 多层前向 BP神经网络 43 v学习的过程 § 神经网络在外界输入样本的刺激下不断改变网络的 连接权值 ,以使网络的输出不断地接近期望的输出。 v学习的本质 § 对各连接权值的动态调整 v学习规则 § 权值调整规则,即在学习过程中网络中各神经元的 连接权变化所依据的一定的调整规则。 4.5 多层前向 BP神经网络 44 BP网络的标准学习算法 -算法思想 v学习的类型有导师学习 v核心思想 § 将输出误差 以某种形式 通过隐层向输入层逐层反传 v学习的过程 § 信号的正向传播 误差的反向传播 将误差分摊给各层的所有 单元---各层单元的误 差信号 修正各单元权 值 45 BP网络的标准学习算法 -学习过程 v正向传播 § 输入样本---输入层---各隐层---输 出层 v判断是否转入反向传播阶段 § 若输出层的实际输出与期望的输出(教师信号 )不符 v误差反传 § 误差以某种形式在各层表示----修正各层 单元的权值 v网络输出的误差减少到可接受的程度 进行到预先设定的学习次数为止 46 BP网络的标准学习算法 v网络结构 § 输入层有 n个神经元,隐含层有 p个神经元 , 输出层有 q个神 经元 v变量定义 § 输入向量 ; § 隐含层输入向量; § 隐含层输出向量 ; § 输出层输入向量 ; § 输出层输出向量 ; § 期望输出向量 ; 47 BP网络的标准学习算法 § 输入层与中间层的连接权值 § 隐含层与输出层的连接权值 § 隐含层各神经元的阈值 § 输出层各神经元的阈值 § 样本数据个数 § 激活函数 § 误差函数 48 BP网络的标准学习算法 v第一步,网络初始化 § 给各连接权值分别赋一个区间( -1, 1)内的随 机数,设定误差函数 e,给定计算精度值 ε和最大 学习次数 M。 v第二步 ,随机选取第 k个输入样本及对应期望 输出 49 BP网络的标准学习算法 v第三步,计算隐含层各神经元的输入和输出 50 BP网络的标准学习算法 v第四步,利用网络期望输出和实际输出,计算 误差函数对输出层的各神经元的偏导数 。 51 BP网络的标准学习算法 v第五步,利用隐含层到输出层的连接权值、输 出层的 和隐含层的输出计算误差函数对 隐含层各神经元的偏导数 。 52 BP网络的标准学习算法 53 BP网络的标准学习算法 v第六步,利用输出层各神经元的 和隐含层 各神经元的输出来修正连接权值 。 54 BP网络的标准学习算法 v第七步,利用隐含层各神经元的 和输入层各 神经元的输入修正连接权。 55 BP网络的标准学习算法 v第八步,计算全局误差 v第九步,判断网络误差是否满足要求。当误差 达到预设精度或学习次数大于设定的最大次数 ,则结束算法。否则,选取下一个学习样本及 对应的期望输出,返回到第三步,进入下一轮 学习。 56 BP网络的标准学习算法 vBP算法直观解释 当误差对权值 的偏 导数大于零时, 权值 调整量为负,实 际输 出大于期望输出 ,权 值向减少方向调 整, 使得实际输出与 期望 输出的差减少。 who e ,此时 Δwho0 who 58 BP神经网络学习算法的 MATLAB实现 vMATLAB中 BP神经网络的重要函数和基本功能 函 数 名 功 能 newff 生成一个前馈 BP网络 tansig 双曲正切 S型 Tan-Sigmoid传输函数 logsig 对数 S型 Log-Sigmoid传输函数 traingd 梯度下降 BP训练函数 59 BP神经网络学习算法的 MATLAB实现 vMATLAB中 BP神经网络的重要函数和基本功能 § newff 功能 建立一个前向 BP网络 格式 net newffPR, [S1 S2.SN1], {TF1 TF2.TFN1}, BTF, BLF, PF 说明 net为创建的新 BP神经网络; PR为网 络输入取向量取值范围的矩阵; [S1 S2 SNl]表 示网络隐含层和输出层神经元的个数; {TFl TF2TFN1} 表示网络隐含层和输出层的传输函 数,默认为 ‘tansig’; BTF表示网络的训练函数, 默认为 ‘trainlm’; BLF表示网络的权值学习函数 ,默认为 ‘learngdm’; PF表示性能数,默认为 ‘mse’。 60 BP神经网络学习算法的 MATLAB实现 vMATLAB中 BP神经网络的重要函数和基本功能 § tansig 功能 正切 sigmoid激活函数 格式 a tansign 说明 双曲正切 Sigmoid函数把神经元的输入 范围从 -∞, ∞映射到 -1, 1。它是可导函数, 适用于 BP训练的神经元。 § logsig 功能 对数 Sigmoid激活函数 格式 a logsigN 说明对数 Sigmoid函数把神经元的输入范围 从 -∞, ∞映射到 0, 1。它是可导函数,适用于 BP训练的神经元。 61 BP神经网络学习算法的 MATLAB实现 v 例 2-3,下表为某药品的销售情况,现构建一个如下的三层 BP神 经网络对药品的销售进行预测输入层有三个结点,隐含层结点 数为 5,隐含层的激活函数为 tansig;输出层结点数为 1个,输出 层的激活函数为 logsig,并利用此网络对药品的销售量进行预测 ,预测方法采用滚动预测方式,即用前三个月的销售量来预测第 四个月的销售量,如用 1、 2、 3月的销售量为输入预测第 4个月 的销售量,用 2、 3、 4月的销售量为输入预测第 5个月的销售量 . 如此反复直至满足预测精度要求为止。 月份 1 2 3 4 5 6 销量 2056 2395 2600 2298 1634 1600 月份 7 8 9 10 11 12 销量 1873 1478 1900 1500 2046 1556 62 BP神经网络学习算法的 MATLAB实现 § 以每三个月的销售量经归一化处理后作为输入 v P[0.5152 0.8173 1.0000 ; 0.8173 1.0000 0.7308; 1.0000 0.7308 0.1390; 0.7308 0.1390 0.1087; 0.1390 0.1087 0.3520; 0.1087 0.3520 0.0000;] ; § 以第四个月的销售量归一化处理后作为目标向量 v T[0.7308 0.1390 0.1087 0.3520 0.0000 0.3761]; § 创建一个 BP神经网络,每一个输入向量的取值范围为 [0 ,1], 隐含层有 5个神经 元,输出层有一个神经元,隐含层的激活函数 为 tansig,输出层的激活函数为 logsig,训练函数为梯度下降函数 ,即 2.3.2节中所描述的标准学习算法 v netnewff[0 1;0 1;0 1],[5,1],{ tansig , logsig }, traingd ; v net.trainParam.epochs15000; v net.trainParam.goal0.01; § 设置学习速率为 0.1 v LP.lr0.1; v nettrainnet,P,T; 63 BP神经网络学习算法的 MATLAB实现 vBP网络应用于药品预测对比图 v 由对比图可以看出预测效果与实际存在一定误差,此误差可以通 过增加运行步数和提高预设误差精度业进一步缩小 64 BP神经网络的特点 v非线性映射能力 § 能学习和存贮大量输入 -输出模式映射关系,而无需 事先了解描述这种映射关系的数学方程。只要能提供 足够多的样本模式对供网络进行学习训练,它便能完 成由 n维输入空间到 m维输出空间的非线性映射。 v泛化能力 § 当向网络输入训练时未曾见过的非样本数据时,网 络也能完成由输入空间向输出空间的正确映射。这种 能力称为泛化能力。 v容错能力 § 输入样本中带有较大的误差甚至个别错误对网络的 输入输出规律影响很小 . 65 BP算法的基本流程 初始化 加输入和期望输出 计算隐层和输出层的输出 迭代 次数加 1 调节输出层和隐层的连接权值 改变训练样板 训练样终止 迭代终止 No No y y 4.6 多层前向 BP神经网络 66 4.6 多层前向 BP神经网络 n前向网络进一步需研究的问题 ① 目标函数存在多个极值点,按梯度下降法进行学习 ,很容易陷入局部极小值; ② 学习算法收敛速度慢, Sigmaid函数本身存在无穷 多闪导数,而 BP算法只用了一次导数,致使收敛 速度慢。 ③ 网络隐层节点个数和初始权值的选取,尚无理论指 导。 67 4.7 Hopfield神经网络神经网络 ØHopfield神经网络神经网络 Ø霍普菲尔德网络是单层对称全反馈网络, 根据其激活函 数的选取不同 ,可分为离散型的霍普菲尔德网络 Discrete Hopfield Neural Network,简称 DHNN和连续 型的霍普菲尔德网络 Continuous Hopfield Neural Network,简称 CHNN。 ØDHNN的 激活函数为二值型 的 ,其输入、输出为 {0, 1} 的反馈网络,主要用于联想记忆。 ØCHNN的激活函数的输入与输出之间的关系为 连续可微 的单调上升函数 ,可以取 0到 1之间的任一实数值 ,主要用于 优化计算。 68 在反馈网络中如果其激活函数 f· 是一个二值型的硬函数,如图 1 所 示,即 ai= sgnni, i= l, 2, r , 则称此网络为离散型反馈网络; 如果 aifni中的 f· 为一个连续单调上升的有界函数,这类网络被 称为连续型反馈网络 。 图 2中所示为一个具有饱和线性激活函数, 它满足连续单调上升的有界函数的条件,常作为连续型的激活函数 。 图 1 DHNN中的激活函数 图 2 CHNN中的激活函数 4.7 Hopfield神经网络神经网络 69 Ø基本的 Hopfield神经网络是一个由非线性元件构成的全 连接型单层反馈系统, Hopfield网络中的每一个神经元都 将自己的输出通过连接权传送给所有其它神经元 ,同时又 都接收所有其它神经元传递过来的信息。 ØHopfield神经网络是一个反馈型神经网络,网络中的神 经元在 t时刻的输出状态实际上间接地与自己 t-1时刻的输 出状态有关。 4.7 Hopfield神经网络神经网络 70 反馈型网络的一个重要特点就是它具有稳定状态, 当网络达到稳定状态的时候,也就是它的能量函数达到 最小的时候。 Hopfield神经网络的能量函数表征网络状态的变化 趋势,并可以依据 Hopfield工作运行规则不断进行状态 变化,最终能够达到的某个极小值的目标函数。网络收 敛就是指能量函数达到极小值。 4.7 Hopfield神经网络神经网络 71 Ø Hopfield网络的稳定性可用能量函数进行分析。 Ø 目前,人工神经网络常利用渐进稳定点来解决某些问 题。例如,如果把系统的稳定点视为一个记忆的话,那么 从初态朝这个稳定点的演变过程就是寻找记忆的过程。初 态可以认为是给定的有关记忆的部分信息。 如果把系统的 稳定点视为一个能量函数的极小点,把能量函数视为一个 优化问题的目标函数,那么从初态朝这个稳定点的演变过 程就是一个求该优化问题的过程。 这样的优点在于它的解 并不需要真的去计算,而只要构成这种反馈网络,适当的 设计其连接值和输入就可达到目的。 4.7 Hopfield神经网络神经网络 72 4.7 Hopfield神经网络神经网络 v1 离散型 Hopfield 网络 离散型 Hopfield 网络的输出为二值型,网络采用 全连接结 构 。令 为各神经元的输出, 为各 神经元与第 个神经元的连接权值, 为第 神经元的阈 值 ,则有 73 4.7 Hopfield神经网络神经网络 当网络经过适当训练后,可以认为网络处于等待状态。而对 网络给定初始输入 x时,网络就处于特定的初始状态。由此初 始状态开始运行,可得到网络输出(即网络的下一状态)。然 后这个输出状态通过反馈连接回送到网络的输入端,作为网络 下一级运行的输入信号,而该输入信号可能与初始输入信号 x 不同。由这个新的输入又可得到下一步的输出,该输出也可能 与上一步的输出不同。如此下去,网络的整个运行过程就是上 述反馈过程的重复。 如果网络是稳定的,那么随着多次反馈运 行,网络状态的变化逐渐减少,最后不再变化,达到稳态。 这 时由输出端可得到网络的稳定输出。 74 能量函数定义为 则其变化量为 也就是说, 能量函数总是随神经元状态的变化而下降的 。 4.7 Hopfield神经网络神经网络 75 4.7 Hopfield神经网络神经网络 2 连续型连续型 Hopfield网络网络 用模拟电路模仿生物神经网络的特性 76 4.7 Hopfield神经网络神经网络 Ø连续型 Hopfield网络 连续型 Hopfield 网络的动态方程 ui为第 i个神经元的状态输入 Vi为第 i个神经元的状态输出 ωij为第 i个神经元到第 j神经元的连接权 g为具有连续且单调增性质的神经元激励函数 Ii为施加到第 i个神经元的偏置 77 4.7 Hopfield神经网络神经网络 定义能量函数定义能量函数 则其变化量 78 4.7 Hopfield神经网络神经网络 其中, 于是,当 ωij ωji 时, 79 且当 时 。 因此,随时间的增长,神经网络在状态空间中的轨迹总是向 能量函数减小的方向变化,且网络的稳定点就是能量函数的 极小点。连续型 Hopfield 网络广泛用于联想记忆和优化计算 问题。 4.7 Hopfield神经网络神经网络 如果把一个最优化问题的目标函数转换成网络的能量函 数,把问题的变量对应于网络的状态,那么 Hopfield神 经网络就能够用于解决优化组合问题。 80 v关于连续 Hopfield网络有如下结论 具有良好的收敛性。即从任意非平衡轨迹出发,网络将 最终收敛于某个平衡状态; 具有有限个平衡点; 如果平衡点是稳定的,那么它也一定是渐进稳定的; 渐进稳定平衡点为其能量函数的极小点; 通过适当的学习,该网络能将任意一组正交矢量存储起 来作为渐进稳定平衡点; 连续 Hopfield网络的信息存储表现为神经元之间互联的 分布式动态存储; 连续 Hopfield网络以大规模非线性连续时间并行方式处 理信息,其计算时间就是系统趋于平衡点的时间。 4.7 Hopfield神经网络神经网络 81 vHopfield网络的应用 Hopfield网络已成功地用于多个领 域,应用方式主要有两种 联想存取和优化计算 。不同应 用的基本思想可以归纳如下 对于特定的问题,选择一种合适的表示方法,使得神经 网络得输出与问题的解对应起来 ; 构造神经网络的能量函数,使其最小值对应于问题的最 佳解 ; 由能量函数反推出神经网络的结构 ; 由网络结构构造网络,让其运行,则稳定状态在一定条 件下就是问题的解 . 4.7 Hopfield神经网络神经网络 82 4.8 Hopfield网络在组合优化中的应用 v组合优化问题,就是在给定约束条件下,求出 使目标函数极小(或极大)的变量组合问题 。 v将 Hopfield网络应用于求解组合优化问题,就 是 把目标函数转化为网络的能量函数 ,把问题 的变量对应于网络的状态。这样 当网络的能量 函数收敛于极小值时,问题的最优解也随之求 出。 83 u TSP问题 所谓 TSPTraveling Salesman Problem问题,即 “ 旅行商问题 ” 是 一个十分有名的难以求解的优化问题,其要求很简单在 n个城市 的 集合中, 从某一城市出发,访问各城市一次且仅一次后再回到原出 发城市。要求找出一条最短的巡回路线。 如果已知城市 A, B, C, D, , 之间的距离为 dAB, dBC, dCD ; 那 么 总的距离 d= dABdBCdCD , 对于这种动态规化问题,要去求其 mind的解。 因为对于 n个城市的全排列共有 n种,而 TSP并没有限定路径的方 向,即为全组合,所以对于固定的城市数 n的条件下,其路径总数 Sn 为 Sn= n/ 2n n≥4 4.8 Hopfield网络在组合优化中的应用 84 n= 4时的 TSP路径图 城市数和对应的旅行方 案数 4.8 Hopfield网络在组合优化中的应用 85 采用连续时间的霍普菲尔德网络模型来求解 TSP, 开辟了一条解 决这一问题的新途径。 其基本思想是把 TSP映射到 CHNN上,通 过网络状态的