基于粒子群優化極限學習機的水質評價新模型(環保)
張穎, 李梅*
(上海海事大學信息工程學院,上海201306)
摘要:河流水質實時評價技術對當前河流水資源管理和保護具有重要意義。該文以淮河水質為例,利用粒子群優化的極限學習機(Particle Swarm Optimization-Extreme Learning Machine,PSO-ELM)分類算法對淮河水質進行類別判定。在極限學習機(ELM)分類算法中隨機給定輸入權值矩陣和隱含層偏置,需要較多的隱含層節點才能達到所需的精度要求,隱含層節點過多易于出現過擬合現象并增加算法的計算量。該文利用粒子群算法(PSO)優化極限學習機的輸人權值矩陣和隱含層偏置,計算輸出權值矩陣,以減少隱含層節點。通過對比PSO-ELM .ELM這2種算法發現,PSO-ELM算法以較少的隱含層節點可獲得更高的精度,降低了對實驗樣本的需求量,提高了模型的擬合能力。實驗結果表明,PSO-ELM對于水質類別判定具有一定的可行性和有效性。
關鍵詞:粒子群優化;極限學習機;水質評價;權值;隱含層
中圖分類號:X824;TP18 doi:10.3969/j.issn.1003-6504.2016.05.026 文章編號:1003-6504(2016)05-0135-05
隨著社會經濟發展和人們生活水平的不斷提高,水資源的保護和合理利用備受關注。水是生命之源、生產之要、生態之基。當前,水資源短缺、水污染嚴重仍然是制約我國經濟社會可持續發展的主要瓶頸。以河流為例,作為重要的國土資源,河流是自然生態系統的重要組成部分。河流與人類的生存發展乃至區域生態平衡息息相關,具有溝通航運、繁衍水生生物、改善區域生態環境以及提供工業農業和飲用水源等多種功能。
自古以來,沿河流地區就是人類棲息、生存和發展的主要地區。河流的水質狀況直接影響到沿河流地區居民的飲用水質量及該區經濟社會的發展。因此,了解水質優劣的情況顯得尤為重要,通常對水體進行質量評價是判斷水質優劣最有效的方法。對水環境的定性研究包括對水質的分析,即對水體進行有效的類別判定。極限學習機是一種參數設置簡單且被廣泛應用的神經網絡算法,該算法隨機給定輸入層與隱含層間的權值和隱含層神經元間的閾值,在訓練過程中無需調整,只需設置隱含層節點個數就可獲得唯一的最優解。但是極限學習機算法隨機產生的隱含層參數會造成網絡泛化性能較差,為了提高預測精度,需要增加隱含層節點數。而隱含層節點數過多會增加網絡復雜度,容易產生過度擬合的問題。針對ELM存
在的問題,本文用粒子群算法優化極限學習機中的連接權值和閡值,建立淮河水質評價的PSO-ELM模型,對淮河三大監測斷面進行水質類別的判定。
1 監測區概況
淮河流域地處中國東部,介于長江和黃河兩流域之間,位于東經1120~1210,北緯310~360,流域面積27萬km2。流域西起桐柏山、伏牛山,東臨黃海,南以大別山、江淮丘陵、通揚運河及如泰運河南堤與長江分界,北以黃河南堤和沂蒙山與黃河流域毗鄰。由于歷史上黃河曾奪淮人海,現淮河分為淮河水系及沂沭泗水系,廢黃河以南為淮河水系,以北為沂沭泗水系。洪澤湖以下為淮河下游,水分三路下泄。主流通過三河閘,出三河,經寶應湖、高郵湖在三江營入長江,成為人江水道,至此全長約1 000 km,流域面積187 000 km2;另一路在洪澤湖東岸出高良澗閘,經蘇北灌溉總渠在扁擔港入黃海;第三路在洪澤湖東北岸出二河閘,經淮沭河北上連云港市,經臨洪口注入海州灣。淮河支流眾多,流域面積大于1萬km2的一級支流有4條,大于2 000 km2的一級支流有16條,大于1 000 km2的一級支流有21條。淮河流域包括湖北、河南、安徽、江蘇、山東5省35個地(市),189個縣(市)。淮河流域有1.2x105 km2耕地,沿海還有近6.7x103 km2灘涂可資開墾。淮河流域礦產資源豐富,以煤炭資源最多,初步探明的煤炭儲量有700多億t,煤炭產量約占全國的1/8,一批新的大型礦井正在興建。淮河流域在中國國民經濟發展中舉足輕重。然而長期以來,隨著當
地經濟的高速發展,這一流域的水生態環境也遭到很大破壞,水質污染惡化的區域時有出現,實時監測并防范水質異常對這一區域的環境治理具有重要意義。
本文是以江蘇盱眙淮河大橋監測斷面、河南周口沈丘閘監測斷面和安徽阜陽張大橋監測斷面來對淮河水質進行評價。江蘇盱眙淮河大橋監測斷面的平均水質等級為Ⅲ類、輕度污染;河南周口沈丘閘監測斷面平均水質等級為V類、嚴重污染;安徽阜陽張大橋監測斷面平均水質等級為V類、嚴重污染。對于淮河水質類別的評價預測具有重要的現實意義和緊迫性。及時的評價及預警,能夠有效地提醒流域相關部門及時做好預防和保護工作,避免水質進一步惡化。
2 數據來源和粒子群優化的極限學習機算法
2.1 數據來源
我國在全國范圍內的主要水系都建有水質自動監測站,截至目前共有145個重點斷面水質自動監測站,可檢測到的指標共有8項。本文選用淮河三大監測斷面即江蘇盱眙淮河大橋監測斷面、安徽阜陽張大橋監測斷面和河南周口沈丘閘監測斷面。3個監測斷面分布如表1所示。
本文樣本數據來自中華人民共和國環境保護部數據中心發布的“全國主要流域重點斷面水質自動監測周報”。選取酸堿度(pH)、溶解氧(DO)、氨氮(NH3-N)、五日生化高錳酸鹽指數為分析指標。根據《地表水環境質量標準》( GB 3838-2002)對研究區內各主要斷面的水體質量展開評價研究,這些參數都可以表征水體污染程度,依據這些參數對水質類別進行判定是準確和科學的。采集從2013年至2014年90周的淮河水質數據作訓練樣本數據,以2015年上半年的前13周作測試樣本數據集對淮河3大斷面進行水質類別判定。3大監測斷面的訓練樣本數據和測試樣本數據取自《全國主要流域重點斷面水質監測周報》。
2.2 基于粒子群優化的極限學習機算法
極限學習機是一種針對SLFN的新算法,極限學習機的輸人權值矩陣w和隱含層偏置閾值b是隨機給定的,只需要設置網絡的隱含層節點個數就能產生唯一的最優解,具有學習速度快且泛化性能好的優點。可通過求解線性方程組的最小二乘解獲得輸出權值。
雖然極限學習機在大部分情況下可以獲得良好的性能,但是連接權值w、偏置閾值b、隱含層節點個數,對極限學習機的精度都存在很大影響。輸出權值矩陣由輸人權值矩陣和隱含層偏差計算得到,可能會存在輸入權值矩陣和隱含層偏差為零的情況,即部分隱含層節點是無效的。因此在一些實際應用中,極限學習機需要大量的隱含層節點才能達到預期的效果。而隱含層節點過多會增加網絡復雜度,容易產生過擬合現象。并且造成極限學習機的泛化能力降低。
粒子群算法是一種群體智能的優化算法更是一
在每一次的迭代過程中,粒子通過個體極值和全局極值更新自身的速度和位置達到要滿足的條件后結束迭代,更新公式如下:
本文用粒子群算法優化極限學習機中的連接權值和閾值,建立淮河水質評價的PSO-ELM模型。將極限學習機的輸人權值和閾值作為粒子群算法的
對于種群中的每個個體,即輸人權值矩陣和隱含層偏差,利用極限學習機算法計算輸出權值矩陣。將每個粒子的均方根誤差作為粒子群優化算法的適應度,由極限學習機的訓練樣本計算出粒子的均方根誤差。粒子群優化極限學習機算法的具體步驟:
(1)給定學習樣本。學習樣本包括輸入向量和期望輸出向量;
(2)建立PSO-ELM神經網絡拓撲結構。包括確定輸入層、隱含層、輸出層的神經元個數和選擇激活函數;
(3)產生種群。該種群由極限學習機的輸人權值和閾值組成,初始化粒子位置和粒子速度,根據權值和閾值的范圍設置粒子速度和位置的尋優范圍;
(4)選擇適合的參數。主要有最大迭代次數T=500,種群規模M=20,慣性權值w=1,學習因子C1=C2=
2,粒子維數D;
(5)確定以極限學習機訓練集的均方根誤差作為適應度值函數,計算出每個粒子的適應度值,求出每個粒子的個體極值和全局極值;
(6)通過比較,不斷更新粒子的速度和位置;
(7)判斷是否達到最大迭代次數或者最小誤差,若達到,則停止迭代,此時的群體極值即是經過PSO優化的ELM輸人權值和隱層節點閾值。若沒達到,轉到步驟5,繼續迭代;其工作流程圖如圖1所示。
3 結果與分析
根據上述獲取的樣本數據,用粒子群優化的極限學習機算法進行水質評價模型建模。使用2013年至2014年的90周水質對模型進行訓練,然后用2015年的13周水質對模型進行測試。訓練好的粒子群優化的極限學習機評價模型對淮河3監測斷面進行水質類別判定,其結果如圖2、3、4所示。
綜合圖2、圖3、圖4和表2對比可以看出,在江蘇盱眙監測斷面、河南周口監測斷面和安徽阜陽監測斷面用PSO-ELM分類模型進行水質類別判定正確率都達到92.31% (12/13:表示對3大監測斷面的13周水質測試中,有12周的水質等級評價正確),分別除第8周、第9周和第10評價錯誤外,其余各周水質評價完全正確;而用ELM分類模型進行水質類別判定正確率均為84.66%(11/13:表示對3大監測斷面的13周水質測試中,有11周的水質等級評價正確),因此可以得出用粒子群優化過后的極限學習機的水質類別判定正確率明顯高于沒有優化的極限學習機。ELM分類模型運行時間都不足2s,雖然ELM分類模型的運行時間比PSQ-ELM分類模型更短,但在分類準確率上卻略為遜色;PSO-ELM分類模型的分類準確率較高,體現了較強的分類能力和抗干擾能力,具有較好的泛化能力;ELM分類模型的分類準確率次之。可見采用PSO-ELM分類模型進行淮河水質評價具有較高的準確性和合理性。
4 結論
本文利用粒子群優化極限學習機模型在分類應用中的特點,將其應用于淮河河流水質的評價。淮河流域包括湖北、河南、安徽、江蘇、山東5省,淮河流域范圍大,支流眾多,為了對淮河整體水質進行合理的評價,故選取江蘇盱眙、河南周口、安徽阜陽3大監測斷面。通過使用公開數據對淮河3大監測斷面進行水質類別判定。實驗結果表明,該模型能有效地對淮河流域整體水質做出了合理的評價。在訓練樣本情況相同的條件下,將粒子群優化極限學習機與極限學習機兩種分類模型的預測分類結果進行對比后發現,使用粒子群優化極限學習機模型的分類結果要優于極限學習機算法。粒子群優化極限學習機模型提高了算法的穩健性,可有效避免訓練“過學習”的問題,使得模型訓練精度和泛化能力獲得提高,而且降低了預測精度對訓練樣本數和隱含層節點數變化的敏感度。因此,粒子群優化的極限學習機算法是一種河流水質評價研究的有效新方法,在其他類似評價與分類應用中有一定的推廣價值。