
i
數據挖掘課程論文
題冃:數據挖掘中
神經網絡方法綜述
學號:1013019________
姓名:袁博___________
ii
專業:工業工程________
(一)數據挖掘的定義3
(二)神經網絡簡述3
二、神經網絡技術基礎理論,,,,,,,,,,,,,,3
(一)神經元節點模型3
(二)神經網絡的拓撲結構4
(三)神經網絡學習算法4
(四)典型神經網絡模型5
三、基于神經網絡的數據挖掘過程,,,,,,,,,,,6
(一)數
據準備,,,,,,,,,,,,,,,,,,,6
(二)規則提取7(三)規則評估
四、總幺結
I1'>―I,,,,,,,,,,,,,,,,,,,,,,
3
一、引言
(一)數據挖掘的定義
關于數據挖掘的定義很多,其中被廣泛接受的定義是:數據挖掘是一個從不完整的、
不明確的、大量的并且包含噪聲,具有很大隨機性的實際應用數據中,提取出隱含其中、
事先未被人們獲知、卻潛在有用的知識或模式的過程。該定義包含了一下幾個含義:
(1)數據源必須為大量的、真實的并且包含噪聲的;(2)
挖掘到的新知識必須為用戶需求的、感興趣的;(3)挖掘到的知識為易理解的、
可接受的、有效并且可運用的;(4)挖掘出的知識并不要求適用于所有領域,可以僅支
持某個特定的應用發現問題。⑴這個定義準確的敘述了數據挖掘的作用,即對海量、雜亂
無章的數據進行處理和分析,并發現隱藏在這些數據中的有用的知識,為決策提供支持。
(二)神經網絡簡述
神經網絡是模擬人類的形象直覺思維,在生物神經網絡研究的基礎上,根據生物神
經元和神經網絡的特點,通過簡化、歸納,提煉總結出來的一類并行處理網絡,利用其非
線性映射的思想和并行處理的方法,用神經網絡本身的結構來表達輸入和輸出的關聯知
識。[2]起初,神經網絡在數據挖掘中的應用并未被看好,其主要原因是神經網絡具有結構
復雜、可解釋性差、訓練時間長等缺陷。但其對噪聲數據的高承受能力和低錯誤率的優
點,以及各種網絡訓練算法的陸續提出與優化,尤其是各種網絡剪枝算法和規則提取算法
的不斷提出與完善,使得神經網
絡在數據挖掘中的應用越來越為廣大使用者所青睞。
二、神經網絡技術基礎理論
(一)神經元節點模型
生物神經元,也成神經細胞,是構成神經系統的基本單元。生物神經元主要由細胞
體、樹突和軸突構成。人們將生物神經元抽象化,建立了一種人工神經元模型。
⑴連接權
連接權對應于生物神經元的突觸,各個人工神經元之間的連接強度由連接權的權值表
示,權值正表示激活,為負表示抑制。
(2)求和單元
4
求和單元用于求和各輸入信號的加權和(線性組合)。
(3)激活函數
激活函數起非線性映射作業,并將人工神經元輸出幅度限制在一定范圍內,
一般限制在(0,1)或者(-1,1)之間。
(二)神經網絡的拓撲結構
人工神經網絡(ArtificialNeuralNetworks,ANN是由大量人工神經元廣泛互聯而成
的,它可以用來模擬神經系統的結構和功能。人工神經網絡可以看成是以人工神經元為節
點,用有向加權弧連接起來的有向圖。根據連接方式,ANN主要分為兩大類:
(1)前饋型網絡
前饋型網絡是靜態非線性映射,通過簡單非線性處理的復合映射可獲得復雜的非線性
處理能力。網絡中各個神經元接受前一級的輸入,并輸出到下一級,網
絡中沒有反饋,且同層中的神經元之間無連接。
(2)反饋型網絡
反饋型神經網絡是一種從輸出到輸入具有反饋連接的神經網絡,神經元的輸
出可以反饋至同層或者前層神經元。因此,信號能夠正向和反向流通。
(三)神經網絡學習算法
下面介紹神經網絡中最基本的幾種學習算法:
(1)Hebb型學習
Hebb型學習的出發點是Hebb學習規則,即如果神經網絡中某一神經元同另一直接
與它連接的神經元同時處于興奮狀態,那么這兩個神經元之間的連接強度將得到加強。該
學習方式可用如下表示:
%(『+】)=憐(0+疏£("+巴(『)]
(2)誤差修正學習
誤差修正學習是一種有導師的學習過程,其基本思想是利用神經網絡的期望輸出與實
際之間的偏差作為連接權值調整的參考,并最終減少這種偏差。最基本
的誤差修正規則規定:連接權值的變化與神經元希望輸出和實際輸出之差成正
5
比。該規則的連接權的計算公式如下所示:
+1)=+"[/(『)—力⑺]丹⑺
(3)競爭型學習
競爭型學習是指網絡中某一組神經元相互競爭對外界刺激模式響應的權力,在競爭中
獲勝的神經元,其連接權會向著對這一刺激模式競爭更為有利的方向發展。競爭型學習是
一種典型的無導師學習,學習時只需要給定一個輸入模式集作
為訓練集,網絡自行組織訓練模式,并將其分成不同類型。[3]
(4)隨機型學習
隨機型學習的基本思想是結合隨機過程、概率和能量(函數)等概念來調整網絡的變
量,從而使網絡的目標函數達到最大(或最小)。網絡的變量可以是連接權,也可以是神經
元的狀態[4]。
(四)典型神經網絡模型
自1957年美國學者latt于第一屆人工智能會議上展示他構造的第一個人
工神經網絡模型一MP模型以來,據統計到目前為止,已提出的神經網絡模型有上百種之
多。前饋型網絡,以BP(BackPropagation)模型、函數型網絡為代表,用于分類、預
測和模式識別等方面;反饋型網絡,以Hopfield離散
模型和連續模型為代表,常用于聯想記憶和優化計算;自組織型網絡,以Kohonen和
ART模型為代表,常用于聚類和模式識別。
(1)BP誤差反向傳播網絡,是一種多層前向網絡,采用最小均方差學習方式。這是
一種最廣泛應用的網絡。它可用于語言綜合,識別和自適應控制等用途。BP神經網絡是
需要有教師的訓練。
⑵Hopfield網絡是由相同的神經元構成的單層,并且不具學習功能的自
聯想網絡,并且需要對稱連接。
(3)Kohonen自組織神經網絡,也稱為自組織特征映射網絡SOM它的輸入層是單
層單維神經元;而輸出層是二維的神經元,神經元之間存在以“墨西哥帽”形式進行側向
交互的作用。因而,在輸出層中,神經元之間有近揚遠抑的反饋特性,從而使Kohonen
6
網絡可以作為模式特征的檢測器。
(4)ART網絡也是一種自組織網絡模型,無教師學習網絡。它能夠較好地協調
適應性,穩定性和復雜性的要求。在ART網絡中,通常需要兩個功能互補的子系統(注
意子系統和取向子系統)相互作用。它不足之處是在于對轉換、失真和規模變化較敏感。
呵
三、基于神經網絡的數據挖掘過程
經過研究,得出了如圖所示的基于神經網絡的數據挖掘的過程。該過程由數
據準備、規則提取和規則評估三個階段組成。⑹
(一)數據準備
擁有數據是進行數據挖掘的必要條件,但僅僅擁有數據還是不夠的。因此很有必要在
實施數據挖掘之前進行數據準備。所謂數據準備就是對被挖掘的數據進行定義、處理和表
示,以使它適應于特定的數據挖掘方法。數據準備是數據挖掘過程中的第一個重要步驟,
在整個數據挖掘過程中起著舉足輕重的作用。它主要包括以下四個過程。
(1)數據清洗:數據清洗就是填充數據中的空缺值,消除噪聲數據,糾正
數據中的不一致數據。因為數據倉庫中的數據來源于異質操作數據庫,這些異質操作數據
庫中的數據并非都是正確的,常常不可避免地存在著不完整、不一致、不精確和重復的臟
數據。數據清洗可以在數據裝入數據倉庫之前或之后進行。目前最常用的數據清洗方法有
基于規則的方法、可視化的方法和統計的方法。
(2)數據選擇:數據選擇就是選擇用于本次挖掘的數據列和行。在絕大多數情況
下,雖然人們無法精確地知道哪些參數是對決策最重要的,但神經網絡可以幫助人們建立
一個與參數相關的模型,進而幫助確定哪些是最重要的參數。數據選擇實際上是在兩個維
上進行的。首先是列或參數維的選擇,其次是行或記錄維的選擇。
(3)數據預處理:數據預處理就是對選擇后的干凈數據進行增強處理。這
種增強處理有時意味著根據一個或多個字段產生新的數據項,有時意味著用一個
7
信息量更大的字段去代替若干個字段。應該說明的是,輸入字段的數目不應該是提供給數
據挖掘算法信息量的量度。因為有些數據可能是冗余的,也就是說,有些屬性只不過是相
同事實的不同度量方式而已。
(4)數據表示:數據表示就是將數據預處理后的數據轉化成基于神經網絡
的數據挖掘算法可以接受的形式。基于神經網絡的數據挖掘只能處理數值數據,
因此需要將符號數據轉化為數值數據。各種常見的神經網絡模型的學習算法、網絡結構
以及基本功能見參考文獻⑺。
(二)規則提取
規則的提取方法很多,其中最為常用的方法有如下幾種。
(1)LRE的方法:用LRE的方法對MLP(多層感知器)進行規則提取主要有兩
步:第一,對網絡中的每一隱層結點和輸出結點,搜索不同的輸入組合使得輸
入加權和大于當前結點的閾值;第二,對每個組合產生一條規則,其前提是各個輸入條件
的合取。Either、KTSubt算法就是LRE方法中有代表性的三種方
法。這三種方法的優點是所產生的規則較容易理解;缺點是搜索空間大、搜索效
率低、前后產生的規則有可能發生重復以及不能保證所有有用的規則都被產生出
(2)黑盒的方法:黑盒的方法僅考慮從前饋神經網絡的輸入和輸出的行為來提取
規則,之所以稱它為黑盒方法,是因為使用該方法在提取規則時不考慮神經網絡的類型和
結構,只關心網絡的輸入與輸出之間的映射關系。Saitoand
Nakano為了從訓練好的神經網絡提取醫療診斷規則而提出的改進算法就是該方
法的一個典型的例子。
(3)提取模糊規則的方法:在模糊神經網絡和神經模糊系統的研究中,有些模糊
神經網絡和神經模糊系統中包含了模糊規則的提取和精華方法。
(4)從遞歸網絡中提取規則的方法:該方法將遞歸網絡的狀態和有限自動機的狀
態相對應,從離散時間遞歸網絡中提取出有限自動機的文法規則。另外,使用該方法可以
提高神經網絡的泛化能力。
(5)最近,Tasa和Ghosh又提出了一些新的規則提取方法:二值輸入輸出
規則提取算法、部分規則提取算法以及全部規則提取算法。有關這三種算法的具
體描述見參考文獻[8]0
來。[9]
8
(三)規則評估
盡管規則評估的目標依賴于各個具體的應用,但總體說來,可以根據以下目標來評
估規則:
(1)尋找提取規則的最優順序,使得它在給定的數據集上
取得最好的效果;
(2)測試被提取規則的正確性;
(3)檢測在神經網絡中還有多少知識未被提取出來;
(4)檢測被提取出來的規則與訓練好的神經網絡之間存在的不一致性的地方。
但是,預先確定規則的順序對規則的運用有著重要的作用,然而,從神經網
絡中提取規則的過程并未給出任何有關規則順序的信息,但可以在以下三個測度的基礎上
實現它:健壯性測度,它在給定的數據集上測試每條規則被激發的次數,顯然它與規則的
順序無關;完備性測度,它測試有多少模式被單獨一條規則所識別;錯誤警戒性測度,它
測試一條規則被錯誤激發的次數。[10]
四、總結
目前,全球信息技術迅速發展,互聯網快速普及,現代信息系統進入了大數據時代,
人們不得不面對著從過量和海量的數據和信息中挖掘出自己真正需要的數據的境況。所以
數據挖掘算法的研究在近十年來受到了全世界專家學者極大的關注,并飛速發展。數據挖
掘算法在發展過程中不斷融合其他領域的知識,產生
了多種多樣的算法,除傳統分類算法、聚類算法之外,還有人工神經網絡、決策樹、遺傳
算法、規則推導等,它們都有自身的優勢特點及廣泛適用的應用領域,具有很好的研究價
值。
本文對數據挖掘神經網絡方法進行研究,重點闡述了神經網絡技術的基礎理論及基于
神經網絡的數據挖掘過程。遺憾的是因為時間有限,對于神經網絡在數據挖掘中的應用研
究并未涉及。
參考文獻
[1]黃浩鋒?嵌入式數據挖掘概述[J].福建電腦,2008,1(4):16-18.
[2]楊青杰.數據挖掘技術在電子商務中的應用研究[J].商場現代化,2008,1(16):25-27.
[3]HANJiawei,KAMBERM..數據挖掘概念與技術[M].范明,孟小峰譯.北京:機械工業出版社,
2001:4-20,223-253.
9
[4]沈俊霞.人工神經網絡幾種學習算法的對比.運城學院學報,2005.32.
[5]杜華英,趙躍龍.人工神經網絡典型模型的比較研究.計算機技術與發展.2006,16(5):
97~98.
⑹尹松,周永權,李陶深.數據聚類方法的研究與分析田.航空計算機,2005,35(l):63一66.
[7]SpragueRHJr,onSupportSystem,PuttingTheoryinto
Practice[M].PrenticeHall,1989.
[8]workforthedevelopmentofdecisionsupportsystem[J].MIS
Quarterly,1980.
[9]郭洪濤.基于粗糙集與神經網絡的分類規則挖掘策略研究[D].河南科技大學:黃廣君,
2008.
[10]昝艷.神經網絡預測及其在科學數據挖掘中的應用[D].電子科技大學:吳為公,2006.
本文發布于:2023-02-27 21:26:39,感謝您對本站的認可!
本文鏈接:http://m.newhan.cn/zhishi/a/1677504399265.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:數據挖掘論文.doc
本文 PDF 下載地址:數據挖掘論文.pdf
| 留言與評論(共有 0 條評論) |