一種融合歷史信息的強化學習路徑規劃方法
1.本發明涉及機器人路徑規劃技術領域,具體涉及一種融合歷史信息的強化學習路徑規劃方法。
背景技術:
2.近年來,移動機器人在各種行業得到了廣泛的應用,同時對移動機器人性能的要求也在不斷提高。移動機器人中的路徑規劃問題是實現移動機器人功能的關鍵技術。路徑規劃是根據人為定義的某一性能指標,獲得機器人從初始位置到達目標位置的最優運動路徑。像人工勢場法、蟻算法、可視圖法等傳統的路徑規劃算法大都存在實時性不高、容易陷入局部最優等缺點。因強化學習算法不需要環境模型,可以在未知環境中通過智能體不斷與環境交互尋最優路徑,這使得強化學習算法越來越多的被應用在移動機器人路徑規劃領域。
3.在移動機器人路徑規劃領域應用最為廣泛的強化學習算法是q-learning算法。q-learning算法是強化學習中基于值的算法,對于給定的狀態動作對(s,a),都會有相應的值函數q(s,a)與之對應,環境會根據智能體所采取的動作給與獎勵r,以此來更新q值。算法的主要思想就是將狀態和動作構建成一張q表來存儲q值,然后根據q值來選取能夠獲得最大收益的動作。q-learning算法的迭代就是一個試錯和探索的過程,其收斂的條件是保證智能體對每一個狀態動作對都進行足夠多次的嘗試,智能體才能最終學習到最優的策略。當把q-learning算法應用于移動機器人路徑規劃時,如何減少無效的探索,加快智能體的收斂速度,提高算法效率是當前研究的熱點。
技術實現要素:
4.為了提高q-learning算法應用于移動機器人路徑規劃時的學習速度,本發明提出一種融合歷史信息的強化學習路徑規劃方法,在狀態空間中引入智能體的上一個歷史狀態來反映環境變化特征,在智能體動作選擇之前,動態調整動作空間,禁止智能體重復返回上一位置,減少無效探索,提高算法的探索效率,縮短路徑規劃時間。
5.本發明提供的一種融合歷史信息的強化學習路徑規劃方法,包括以下步驟:s1:獲取環境圖像,建立格柵地圖;s2:定義強化學習狀態空間和動作空間;s3:初始化算法參數;s4:動態調整動作空間;s5:在調整后的動作空間中,采用ε-貪婪策略選擇動作;s6:執行動作,更新q值;s7:復執行第四步、第五步、第六步,直到達到一定步數或一定收斂條件為止;s8:每一步選擇q值最大的動作,得出最優路徑;s9:把最優路徑發送給移動機器人的控制器,控制移動機器人按照最優行走。
6.進一步的,所述步驟s1的具體操作如下:基于移動機器人所搭載的攝像頭獲得環境圖像,并將圖像分割成20
×
20的柵格,采用柵格法建立環境模型,如果在格柵中發現障礙物,則定義該柵格為障礙物位置,機器人不能經過;如果格柵中發現目標點,則定于該格柵為目標位置,為移動機器人最終要到達的位置;其他的柵格定義為無障礙物的柵格,機器人可以經過。
7.進一步的,所述步驟s2的具體操作如下:定義強化學習的狀態空間為智能體的當前位置坐標和上一位置坐標,動作空間為上、下、左、右四個方向的動作,每次執行動作之后智能體朝相應的方向移動一個柵格。
8.進一步的,所述步驟s3中的算法參數包括學習率
ɑ
∈(0,1),折扣因子γ∈(0,1),貪婪因子ε∈(0,1),最大迭代次數,獎賞函數r;把所有q值初始化為0,并隨機給定一個動作,執行該動作到達下一狀態。
9.進一步的,所述步驟s4中的動態調整動作空間為若上一步動作為上,則動作空間調整為{上,左,右};若上一步動作為下,則動作空間調整為{下,左,右};若上一步動作是左,則動作空間調整為{上,下,左};若上一步動作是右,則動作空間調整為{上,下,右}。
10.進一步的,所述步驟s6的具體操作如下:執行步驟s5所選擇的動作a,到達s,得到即時獎勵r(s,a),更新q值函數,更新規則如式(1)(1)其中,(s,a)為當前狀態-動作對,(s
,
,a
,
)為下一時刻的狀態-動作對,r(s,a)為狀態s下執行動作a的即時獎勵。
11.本發明的有益效果:本發明針對傳統的q-learning算法應用于移動機器人路徑規劃問題時的收斂速度慢,運行效率低等問題,提出一種融合歷史信息的改進q-learning算法,把狀態空間定義為智能體的當前位置坐標和上一位置坐標,來反映位置的變化特征;在智能體選擇動作之前,動態調整動作空間,禁止智能體重復返回上一位置,減少無效探索。將改進后的算法應用于移動機器人的路徑規劃問題,結果證明算法的可行性?;诟駯诺貓D的仿真結果表明,改進的q-learning算法在應用于移動機器人路徑規劃問題時,規劃時間縮短25.93%,收斂前的運行步數減少26.29%,提高了算法效率。
附圖說明
12.為了更清楚地說明本技術實施例的技術方案,下面將對本技術實施例中所需要使用的附圖做簡單的介紹,顯而易見地,下面所描述的附圖僅僅是本技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下還可以根據這些附圖獲得其他的附圖。
13.圖1為本發明所述方法總體流程示意圖。
14.圖2為本發明實施例的移動機器人運行格柵地圖。
15.圖3為傳統q-learning收斂情況圖。
16.圖4為本發明實施例的改進q-learning收斂情況圖。
17.圖5為本發明實施例的改進q-learning規劃出的最優路徑圖。
具體實施方式
18.下面將結合附圖對本發明技術方案的實施例進行詳細的描述。以下實施例僅用于更加清楚地說明本發明的技術方案,因此只作為示例,而不能以此來限制本發明的保護范圍。
19.參閱圖1,本發明提供的一種融合歷史信息的強化學習路徑規劃方法,其方法步驟如下所述:第一步:基于移動機器人所搭載的攝像頭獲得環境圖像,并將圖像分割成20
×
20的柵格,采用柵格法建立環境模型,本實施例中的格柵地圖如圖2所示,如果在格柵中發現障礙物,則定義該柵格為障礙物位置,機器人不能經過;如果格柵中發現目標點,則定于該格柵為目標位置,為移動機器人最終要到達的位置;其他的柵格定義為無障礙物的柵格,機器人可以經過。
20.第二步:定義強化學習的狀態空間為智能體的當前位置坐標和上一位置坐標,動作空間為上、下、左、右四個方向的動作,每次執行動作之后智能體朝相應的方向移動一個柵格。
21.第三步:初始化算法參數包括:學習率
ɑ
∈(0,1),折扣因子γ∈(0,1),貪婪因子ε∈(0,1),最大迭代次數,獎賞函數r。把所有q值初始化為0,并隨機給定一個動作,執行該動作到達下一狀態。
22.在本實施例中,學習率
ɑ = 0.01,折扣因子γ = 0.9,貪婪因子ε=0.2,最大迭代次數設置為3000次,獎勵函數設置為:第四步:動態調整動作空間若上一步動作為上,則動作空間調整為{上,左,右};若上一步動作為下,則動作空間調整為{下,左,右};若上一步動作是左,則動作空間調整為{上,下,左};若上一步動作是右,則動作空間調整為{上,下,右}。
23.第五步:在調整后的動作空間中,采用ε-貪婪策略選擇動作,保證智能體不再重復返回上一位置,減少無效探索。
24.第六步:執行第三步所選擇的動作a
,
到達s
,
,得到即時獎勵r(s,a),更新q值函數,更新規則如式(1)。
25.(1)其中,(s,a)為當前狀態-動作對,(s
,
,a
,
)為下一時刻的狀態-動作對,r(s,a)為狀態s下執行動作a的即時獎勵。
26.重復執行第四步、第五步、第六步,直到達到一定步數或一定收斂條件為止。
27.第七步:每一步選擇q值最大的動作,得出最優路徑。
28.第八步:把最優路徑發送給移動機器人的控制器,控制移動機器人按照最優行走。
29.在本實施例中,我們利用上述方法,通過上述參數設置,可得到最優路徑如圖5所示。
30.圖4為本發明實施例的改進q-learning收斂情況圖。通過和圖3的傳統q-learning收斂情況圖相比,本實施例的融合歷史信息的強化學習路徑規劃方法使得收斂時間縮短25.93%,迭代次數減少26.29%,提高了算法效率。
31.需要注意的是,除非另有說明,本技術使用的技術術語或者科學術語應當為本發明所屬領域技術人員所理解的通常意義。
技術特征:
1.一種融合歷史信息的強化學習路徑規劃方法,其特征在于:包括以下步驟:s1:獲取環境圖像,建立格柵地圖;s2:定義強化學習狀態空間和動作空間;s3:初始化算法參數;s4:動態調整動作空間;s5:在調整后的動作空間中,采用ε-貪婪策略選擇動作;s6:執行動作,更新q值;s7:復執行第四步、第五步、第六步,直到達到一定步數或一定收斂條件為止;s8:每一步選擇q值最大的動作,得出最優路徑;s9:把最優路徑發送給移動機器人的控制器,控制移動機器人按照最優行走。2.根據權利要求1所述的融合歷史信息的強化學習路徑規劃方法,其特征在于:所述步驟s1的具體操作如下:基于移動機器人所搭載的攝像頭獲得環境圖像,并將圖像分割成20
×
20的柵格,采用柵格法建立環境模型,如果在格柵中發現障礙物,則定義該柵格為障礙物位置,機器人不能經過;如果格柵中發現目標點,則定于該格柵為目標位置,為移動機器人最終要到達的位置;其他的柵格定義為無障礙物的柵格,機器人可以經過。3.根據權利要求1所述的融合歷史信息的強化學習路徑規劃方法,其特征在于:所述步驟s2的具體操作如下:定義強化學習的狀態空間為智能體的當前位置坐標和上一位置坐標,動作空間為上、下、左、右四個方向的動作,每次執行動作之后智能體朝相應的方向移動一個柵格。4.根據權利要求1所述的融合歷史信息的強化學習路徑規劃方法,其特征在于:所述步驟s3中的算法參數包括學習率
ɑ
∈(0,1),折扣因子γ∈(0,1),貪婪因子ε∈(0,1),最大迭代次數,獎賞函數r;把所有q值初始化為0,并隨機給定一個動作,執行該動作到達下一狀態。5.根據權利要求1所述的融合歷史信息的強化學習路徑規劃方法,其特征在于:所述步驟s4中的動態調整動作空間為若上一步動作為上,則動作空間調整為{上,左,右};若上一步動作為下,則動作空間調整為{下,左,右};若上一步動作是左,則動作空間調整為{上,下,左};若上一步動作是右,則動作空間調整為{上,下,右}。6.根據權利要求1所述的融合歷史信息的強化學習路徑規劃方法,其特征在于:所述步驟s6的具體操作如下:執行步驟s5所選擇的動作a,到達s,得到即時獎勵r(s,a),更新q值函數,更新規則如式(1)(1)其中,(s,a)為當前狀態-動作對,(s
,
,a
,
)為下一時刻的狀態-動作對,r(s,a)為狀態s下執行動作a的即時獎勵。7.根據權利要求1所述的融合歷史信息的強化學習路徑規劃方法,其特征在于:所述學習率
ɑ = 0.01,折扣因子γ = 0.9,貪婪因子ε=0.2,最大迭代次數設置為3000次,獎勵函數
設置為:。
技術總結
本發明涉及機器人路徑規劃技術領域,具體涉及一種融合歷史信息的強化學習路徑規劃方法,包括以下步驟:S1:獲取環境圖像,建立格柵地圖;S2:定義強化學習狀態空間和動作空間;S3:初始化算法參數;S4:動態調整動作空間;S5:在調整后的動作空間中,采用ε-貪婪策略選擇動作;S6:執行動作,更新Q值;S7:復執行第四步、第五步、第六步,直到達到一定步數或一定收斂條件為止;S8:每一步選擇Q值最大的動作,得出最優路徑;S9:把最優路徑發送給移動機器人的控制器,控制移動機器人按照最優行走??刂埔苿訖C器人按照最優行走。控制移動機器人按照最優行走。
