VR環(huán)境下圖書閱讀手勢交互系統(tǒng)設(shè)計*

作者：康美林，卓惠麗（湖南科技職業(yè)學(xué)院軟件學(xué)院，湖南長沙 410004）時間：2022-11-22 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：為了解決讀者在圖書館閱讀過程中受限于時間和空間的問題，本文提出對虛擬現(xiàn)實閱讀手勢交互系統(tǒng)進行設(shè)計，針對虛擬現(xiàn)實環(huán)境下圖書閱讀手勢中存在交互效率和識別誤差率問題，采用深度神經(jīng)網(wǎng)絡(luò)算法對手勢識別算法進行設(shè)計，采集手勢識別數(shù)據(jù)進行測試，實驗結(jié)果表明，手勢識別準(zhǔn)確率可以達(dá)到91.75%，交互耗時平均約為0.28?s。VR環(huán)境下圖書閱讀手勢交互系統(tǒng)有利于改變傳統(tǒng)學(xué)習(xí)方式，營造良好學(xué)習(xí)氛圍，激發(fā)學(xué)生學(xué)習(xí)興趣。同時，基于自然手勢的用戶交互研究為VR閱讀中的用戶服務(wù)創(chuàng)新提供了新的視角。

本文引用地址：http://2s4d.com/article/202211/440713.htm

關(guān)鍵詞：虛擬現(xiàn)實；圖書閱讀；三維建模；手勢交互

*基金項目：湖南科技職業(yè)學(xué)院校級科研立項課題“VR環(huán)境下圖書閱讀手勢交互系統(tǒng)研究”（KJ21227）

0 引言

為了解決讀者在圖書館閱讀書籍過程中受限于時間和空間的問題，可通過虛擬現(xiàn)實（Virtual Reality, VR）技術(shù)試圖讓喜歡閱讀的學(xué)生在任何時間任何地點都能沉浸于閱讀之中，VR閱讀可提供與真實世界一樣的視覺、聽覺和觸覺等感知功能，能夠給讀者營造身臨其境的感覺 ^[1]，激發(fā)學(xué)生的學(xué)習(xí)興趣。然而，市場上大部分 VR 閱讀應(yīng)用場景界面仍使用傳統(tǒng)的 GUI 交互，需要通過傳統(tǒng)的鼠標(biāo)、鍵盤或手柄等交互設(shè)備進行操作，且僅適用于二維交互，無法滿足 VR 環(huán)境中人機交互的新要求，缺少多維度、多模態(tài)、高效性特點，影響了 VR 閱讀的體驗感。

當(dāng)前，使用者在 VR 交互中更加熱衷于使用自然手勢與虛擬對象進行交互，手勢交互具有自然性、多維性和高效性等特點 ^[2]。手勢識別技術(shù)也是作為人機交互的重要組成部分，它以更自然、更符合人類習(xí)慣的交互形式^[3]，能夠滿足 VR 交互體驗的需求，但手勢交互在虛擬場景中存在輸入序列缺失、識別誤差高、交互效率低等問題^[4]。本文對虛擬現(xiàn)實閱讀手勢交互系統(tǒng)進行設(shè)計，基于深度神經(jīng)網(wǎng)絡(luò)算法設(shè)計手勢識別算法。

1 相關(guān)工作研究

VR 閱讀的研究主要集中在圖書館相關(guān)情境的應(yīng)用研究、用戶體驗分析、發(fā)展分析等問題。劉念^[5]提出構(gòu)建基于 VR 技術(shù)的特色館藏建設(shè)方案。李瑞^[6]闡述了 VR 技術(shù)在當(dāng)前實體書店中發(fā)展的意義 , 首先分析了 VR 場景在實體書店中應(yīng)用的情況分析 , 然后對 VR 場景在實體店的應(yīng)用可行性分析，并提出了應(yīng)用對策。呂明明^[7] 等人指出 VR 技術(shù)利用其沉浸感、構(gòu)想性、交互性的三大優(yōu)勢 , 同時提出 "VR+ 圖書 " 的未來出版策略 , 給 "VR+ 圖書 " 模式的構(gòu)建和發(fā)展提供了新的思路與新的方法。

國內(nèi)外研究學(xué)者對手勢交互進行了深入的研究，龍江騰等^[8]人設(shè)計了一種 VR 游戲手勢動作識別裝置，首先對手勢分類識別，然后優(yōu)化手勢數(shù)據(jù)特征的提取方法 , 最后在 VR 游戲中優(yōu)化了人機交互過程。黃東晉等 ^[9]人提出一種新的面向電影場景搭建的手勢交互方法，首先根據(jù)電影的虛擬預(yù)演特性和手勢理論 , 設(shè)計了一組手勢集合，然后搭建了徒手的手勢用戶界面。王文鋒^[10] 提出了基于手勢交互的汽車虛擬拆裝實驗系統(tǒng)，并且構(gòu)建了車輛拆裝的虛擬仿真實驗平臺。馬少斌^[11] 通過搭建手勢交互課件應(yīng)用系統(tǒng)，為基于 AR 交互課件的播控奠定了技術(shù)基礎(chǔ)。

2 系統(tǒng)總體方案設(shè)計

2.1 開發(fā)流程

VR 環(huán)境下圖書閱讀手勢交互系統(tǒng)的開發(fā)流程主要包括需求調(diào)研與需求分析、基于 3DMax 軟件制作對象模型、基于 Unity 搭建場景與交互邏輯實現(xiàn)、深度神經(jīng)網(wǎng)絡(luò)手勢識別算法開發(fā)和測試與評價 5 個部分。

2.1.1 需求調(diào)研與需求分析

首先通過對學(xué)校圖書館進行實地測量和資料調(diào)研，對圖書館的內(nèi)部結(jié)構(gòu)，圖書館中物體的比例尺寸數(shù)據(jù)和室內(nèi)內(nèi)飾輪廓進行拍照、測量與記錄，通過問卷調(diào)查收集讀者的閱讀習(xí)慣和行為操作，然后對真實圖書館的建模數(shù)據(jù)和閱讀的功能數(shù)據(jù)進行需求分析，形成相關(guān)的文檔記錄。

2.1.2 基于3DMax軟件制作對象模型

基于 3DMax 軟件制作對象模型主要完成圖書館及相關(guān)對象的 3D 模型制作，并對模型的細(xì)節(jié)進行優(yōu)化處理，這一任務(wù)依賴于需求調(diào)研與需求分析形成的文檔信息，根據(jù)比例尺寸制作圖書館的模型，并對構(gòu)建好的模型完成展 UV 操作、材質(zhì)貼圖和導(dǎo)出處理等任務(wù)，導(dǎo)出為 fbx 格式文件。

2.1.3 基于Unity搭建場景與交互邏輯實現(xiàn)

基于 Unity 搭建場景主要需要完成 3D 模型的導(dǎo)入，模型材質(zhì)的處理和 3D 場景搭建。首先需要將制作好的模型相關(guān)資源導(dǎo)入到 Unity 引擎中，材質(zhì)球使得模型接近真實的外形和材質(zhì)感，3D 場景搭建主要是在場景中按需求調(diào)研數(shù)據(jù)搭建圖書館。交互邏輯的實現(xiàn)主要包含 UI 菜單導(dǎo)航以及閱讀過程中人機交互相關(guān)邏輯實現(xiàn)等。

2.1.4 深度神經(jīng)網(wǎng)絡(luò)手勢識別算法開發(fā)

深度神經(jīng)網(wǎng)絡(luò)手勢識別算法開發(fā)主要包括手勢數(shù)據(jù)的處理、手勢識別模型的訓(xùn)練、測試與應(yīng)用。

2.1.5 VR圖書閱讀手勢交互系統(tǒng)的測試與評價

測試與評價部分是通過選擇以手勢和鼠標(biāo)點擊兩種人機交互方式分別進行實驗，測試的內(nèi)容包括 UI 菜單選擇、手勢和鼠標(biāo)點擊交互、閱讀反饋等功能。

2.2 功能設(shè)計

VR 圖書閱讀系統(tǒng)的功能設(shè)計主要包含場景、UI 菜單、鼠標(biāo)點擊交互和手勢交互閱讀四個方面。

2.2.1 場景

逼真的閱讀場景設(shè)計是系統(tǒng)不可或缺的關(guān)鍵因素，影響了讀者對于 VR 世界的直觀感受。本系統(tǒng)采用 3Dmax 模型實時渲染圖書館場景，給讀者營造了一種身臨其境的閱讀氛圍。

2.2.2 UI菜單

UI 菜單的作用主要給讀者進行一些相關(guān)的選擇操作的提示。本系統(tǒng)提供了開始場景 UI 菜單和閱讀過程中需要的 UI 菜單兩種。

2.2.3 鼠標(biāo)點擊按鈕交互

在鼠標(biāo)游戲?qū)ο笊蠑U展腳本，在初始化 Start 方法中通過 GetComponent 方法獲取到 Button 組件，然后給按鈕注冊監(jiān)聽事件 btn.onClick.AddListener (OnClick)，再在 OnClick 回調(diào)方法中編寫邏輯代碼。

2.2.4 手勢交互

手勢交互的作用主要涉及兩個方面：一方面提供手勢交互功能，如手勢翻閱圖書；另一方面提供手勢輔助操作功能，如手勢打開 / 關(guān)閉 UI 菜單等。

2.3 模型設(shè)計

基于 3DMax 軟件構(gòu)建 VR 圖書閱讀系統(tǒng)的相關(guān)模型資源，包括圖書館模型、圖書館書架模型和圖書模型，并完成相關(guān)的細(xì)節(jié)化處理。

2.3.1 在建模過程中，可以將一個復(fù)雜的對象模型拆分為很多個簡單的小模型，首先可以創(chuàng)建簡單的小模型，然后在由很多的小模型合并生成一個復(fù)雜的整體模型，從而實現(xiàn)由簡單到復(fù)雜。

2.3.2 在使用 3Dmax 建模過程中，需要注意的就是要控制模型的面數(shù)。如果模型面數(shù)過多，這樣會影響到渲染速度，嚴(yán)重的時候，VR 設(shè)備會出現(xiàn)卡機的現(xiàn)象。因此，在確保物體保真的前提下，盡可能的讓面數(shù)越少，我們可以通過減少模型的曲面細(xì)分，或者減少倒角的使用等來解決。

2.4 場景設(shè)計

在從 3DMax 軟件中完成模型制作后，導(dǎo)出模型時，選擇為 FBX 格式，再通過復(fù)制粘貼到工程項目下的文件中，完成模型的導(dǎo)入。在場景中導(dǎo)入模型，調(diào)整書架和書的布局位置，再給模型設(shè)置好材質(zhì)貼圖。

3 手勢識別算法設(shè)計

基于深度神經(jīng)網(wǎng)絡(luò)的手勢識別算法開發(fā)，首先對 Leap Motion 手部體感數(shù)據(jù)的進行提取與處理，然后對深度神經(jīng)網(wǎng)絡(luò)的函數(shù)與算法選擇，最后對手勢識別模型進行訓(xùn)練與應(yīng)用。

3.1 手勢數(shù)據(jù)處理

本文采用 Leap Motion 設(shè)備進行手勢數(shù)據(jù)采集，通過 USB 接口可以建立 Leap Motion 與 PC 之間的連接，采集數(shù)據(jù)的追蹤頻率可達(dá)到每秒 120 幀，通過手勢數(shù)據(jù)采集程序就可以獲取手模型數(shù)據(jù)，模型數(shù)據(jù)通常包含標(biāo)簽數(shù)據(jù)、掌心位置數(shù)據(jù)、手掌姿態(tài)數(shù)據(jù)、手臂相關(guān)數(shù)據(jù)、大拇指相關(guān)數(shù)據(jù)、食指相關(guān)數(shù)據(jù)、中指相關(guān)數(shù)據(jù)、無名指相關(guān)數(shù)據(jù)、小拇指相關(guān)數(shù)據(jù)等^[12]。在編寫手勢數(shù)據(jù)讀取程序時需要對數(shù)據(jù)位數(shù)進行解析，再將獲取到的手勢特征數(shù)據(jù)，存入文本文件。

3.2 深度神經(jīng)網(wǎng)絡(luò)的函數(shù)與算法選擇

激活函數(shù)對神經(jīng)網(wǎng)絡(luò)的深層和非線性能力提供了幫助，通常來說，離開激活函數(shù)，加深網(wǎng)絡(luò)算法就失去了意義，目前，常用的激活函數(shù)有 tanh 函數(shù)、sigmoid 函數(shù)和 relu 函數(shù)^[13]。激活函數(shù) relu 也稱為帶泄露線性整流函數(shù)，主要運行在神經(jīng)元上的函數(shù)。其表達(dá)式為：

其中： δ 為 relu 的參數(shù)；t 為神經(jīng)元輸入；f (t) 為神經(jīng)元輸出。

損失函數(shù)的作用主要用于評估模型的性能，損失函數(shù)越小表明模型的性能越好。常用的損失函數(shù)有平方損失函數(shù)、絕對值損失函數(shù)和 Focal loss 損失函數(shù)等。Focal loss 損失函數(shù)表達(dá)式為：

優(yōu)化算法主要用于優(yōu)化權(quán)重和偏移量，降低損失。常用的優(yōu)化算法有梯度下降、隨機梯度下降和 Adam 等，Adam 算法在模型訓(xùn)練優(yōu)化的過程中，可以使每個參數(shù)獲得自適應(yīng)的學(xué)習(xí)率，從而優(yōu)化質(zhì)量和速度。

3.3 手勢識別模型訓(xùn)練與應(yīng)用

首先，導(dǎo)入手勢數(shù)據(jù)集，通過提取自然手勢的 8 組手勢：①右手單手向前；②右手單手向后；③右手單手向左；④右手單手向右；⑤左手單手向前，映射為拿書；⑥左手單手向后，映射為；⑦左手單手向左；⑧左手單手向右。其中：①、④、⑤和⑧，映射為閱讀交互中的翻下一頁的功能；⑥、⑦、②和③，映射為閱讀交互中的翻上一頁的功能。然后，將 8 種手勢數(shù)據(jù)集平均劃分為訓(xùn)練集、驗證集和測試集，最后，通過調(diào)用訓(xùn)練好的手勢識別模型數(shù)據(jù)，實時計算采集到的手勢數(shù)據(jù)。

4 實驗分析

4.1 實驗數(shù)據(jù)集

為評估本文提出的深度神經(jīng)網(wǎng)絡(luò)手勢識別算法，本次實驗選取 30 名同學(xué)進行測試。

4.2 實驗結(jié)果

采集了 30 名同學(xué)的手勢數(shù)據(jù)，8 種手勢數(shù)據(jù)集，總共采集 800 組，100 組右手單手向前；100 組右手單手向后；100 組右手單手向左；100 組右手單手向右；100 組左手單手向前；100 組左手單手向后；100 組左手單手向左；100 組左手單手向右，測試實驗結(jié)果如表 1。

表1 實驗結(jié)果表

由表 1 可見，對手勢交互的動作進行樣本測試，總樣本數(shù)為 800 次，誤檢數(shù) 66 次，準(zhǔn)確率達(dá)到 91.75%，平均耗時 0.28 s。

5 結(jié)束語

本文對虛擬現(xiàn)實閱讀手勢交互系統(tǒng)總體方案進行了設(shè)計，從開發(fā)流程、功能設(shè)計、模型設(shè)計和場景設(shè)計進行了描述。選擇深度神經(jīng)網(wǎng)絡(luò)算法設(shè)計手勢識別算法，可以降低識別誤差率，提高交互效率，有利于改變傳統(tǒng)閱讀方式，有利于在教育中營造良好的學(xué)習(xí)氛圍。

參考文獻(xiàn)：

[1] YONGCAI H, WEI S, XIGANG L, et al. Tourism demonstration system for large-scale museums based on 3D virtual simulation technology[J]. The Electronic Library, 2020,38(2): 367-381.

[2] 胡中旭.虛擬場景人機交互中手勢識別技術(shù)研究[D].武漢:華中科技大學(xué),2018.

[3] XIA SH, GAO L, LAI YK, et al. A survey on human performance capture and animation[J]. Journal of Computer Science and Technology, 2017,32(3):536-554.

[4] 張維,林澤一,程堅,等.動態(tài)手勢理解與交互綜述[J].軟件學(xué)報,2021,32(10):3051-3067.

[5] 劉念.VR技術(shù)在高校圖書館特色館藏建設(shè)中的應(yīng)用及發(fā)展研究[J].大學(xué)圖書情報學(xué)刊,2020,38(04):125-129.

[6] 李瑞.VR場景在實體書店的前景研究[J].企業(yè)科技與發(fā)展,2019(04):79-80.

[7] 呂明明.沉浸、互動與構(gòu)想:“VR+圖書”出版的契機與策略[J].長江師范學(xué)院學(xué)報,2021,37(01):40-46.

[8] 龍江騰,高永平.一種VR游戲手勢運動識別裝置[J].現(xiàn)代電子技術(shù),2021,44(12):173-176.

[9] 黃東晉,陳燕敏,李金遙,等.一種新的面向電影場景搭建的自然手勢交互方法[J].計算機應(yīng)用與軟件,2021,38(06):46-51.

[10] 王文鋒,楊韜.基于Unity 3D與自然手勢交互的車輛虛擬拆裝實驗系統(tǒng)[J].高技術(shù)通訊,2021,31(06):646-652.

[11] 馬少斌,張成文,梁虎金.基于Kinect的手勢交互課件應(yīng)用系統(tǒng)的設(shè)計[J].蘭州文理學(xué)院學(xué)報(自然科學(xué)版),2021,35(03):77-81.

[12] 章彬.基于Leap Motion手勢識別的VR電工實驗系統(tǒng)設(shè)計[D].大連:大連理工大學(xué),2021.

[13] 賴策.卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)分析[J].科學(xué)技術(shù)創(chuàng)新,2019.

(注：本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年11月期)

新聞中心

VR環(huán)境下圖書閱讀手勢交互系統(tǒng)設(shè)計*

評論

相關(guān)推薦

技術(shù)專區(qū)