av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

基于大數(shù)據(jù)技術(shù)的大學(xué)生學(xué)習(xí)畫像構(gòu)建

來源:期刊VIP網(wǎng)所屬分類:計(jì)算機(jī)信息管理時(shí)間:瀏覽:

  摘 要:在信息社會(huì),各行各業(yè)的管理控制轉(zhuǎn)變?yōu)橐詳?shù)據(jù)、信息為中心。在高等教育領(lǐng)域,高校重視學(xué)生信息數(shù)據(jù)庫的建設(shè),通過學(xué)生瀏覽信息的關(guān)鍵詞、種類分布和瀏覽主題等多個(gè)維度構(gòu)建學(xué)生畫像向量空間模型。本文使用大數(shù)據(jù)技術(shù)構(gòu)建學(xué)生學(xué)習(xí)畫像基礎(chǔ)模型框架,研究學(xué)生學(xué)習(xí)畫像在個(gè)性化學(xué)習(xí)、問題預(yù)警及輔助學(xué)校決策等方面的應(yīng)用,為高校提升學(xué)生培養(yǎng)質(zhì)量提供參考。

  關(guān)鍵詞:學(xué)習(xí)畫像;用戶標(biāo)簽;數(shù)據(jù)挖掘

大數(shù)據(jù)挖掘論文

  1 引言(Introduction)

  我國普通高等學(xué)校素質(zhì)教育明確提出,高校的教學(xué)任務(wù)在于不斷提升學(xué)生的綜合素質(zhì)。信息社會(huì)下的大學(xué)生呈現(xiàn)個(gè)性化發(fā)展的趨勢(shì)[1],他們的學(xué)習(xí)行為、特長(zhǎng)偏好等也相對(duì)多樣化。學(xué)校對(duì)學(xué)生的教育方式要適應(yīng)學(xué)生的個(gè)性化發(fā)展需求,以利于提升學(xué)生的綜合素質(zhì),為經(jīng)濟(jì)社會(huì)培養(yǎng)高質(zhì)量人才。

  當(dāng)前國內(nèi)在企業(yè)精準(zhǔn)營(yíng)銷以及數(shù)據(jù)產(chǎn)品個(gè)性化推薦領(lǐng)域中,對(duì)用戶進(jìn)行畫像構(gòu)建的較多。高校對(duì)學(xué)生的數(shù)據(jù)搜集、處理以及畫像構(gòu)建等尚不全面,大多數(shù)畫像構(gòu)建通常停留在數(shù)據(jù)的描述可視化上[2],并未對(duì)學(xué)生的教育與改善學(xué)習(xí)效果起到明顯作用。基于大數(shù)據(jù)技術(shù)的學(xué)生學(xué)習(xí)畫像構(gòu)建針對(duì)學(xué)生不同個(gè)性發(fā)展的獨(dú)立性及多樣性,重視學(xué)生在思維和行為上的差距,突破對(duì)學(xué)生綜合評(píng)價(jià)僅考慮學(xué)習(xí)成績(jī)的局限性,能更加全面地對(duì)學(xué)生進(jìn)行評(píng)價(jià)及打分,可以更好地引導(dǎo)學(xué)生,挖掘?qū)W生潛能,促進(jìn)學(xué)生全面發(fā)展。本文探討研究基于大數(shù)據(jù)技術(shù)的學(xué)生學(xué)習(xí)畫像基礎(chǔ)模型框架的構(gòu)建,以期在學(xué)生個(gè)性化學(xué)習(xí)、學(xué)生問題預(yù)警及輔助學(xué)校有關(guān)政策、決策的制定等方面提供數(shù)據(jù)驅(qū)動(dòng)。

  2 大學(xué)生學(xué)習(xí)畫像(University students' learning portrait)

  大學(xué)生學(xué)習(xí)畫像是高校大學(xué)生在學(xué)習(xí)方面的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。通過學(xué)生學(xué)習(xí)數(shù)據(jù)收集分析了解學(xué)生,根據(jù)他們的目標(biāo)、行為和屬性的差異,將他們區(qū)分為不同的類型,然后從每種類型學(xué)生中抽取出基本信息、內(nèi)容偏好、學(xué)習(xí)風(fēng)格和社交互動(dòng)行為描述,就形成了一個(gè)人物原型即一個(gè)學(xué)生學(xué)習(xí)畫像。根據(jù)數(shù)據(jù)的記錄和描述性統(tǒng)計(jì)分析可得:在已知學(xué)生性別、年齡和專業(yè)的前提條件下,依據(jù)學(xué)生檢索信息的內(nèi)容、頁面瀏覽的次數(shù)以及下載量,甚至包括在社交學(xué)習(xí)平臺(tái)上資源轉(zhuǎn)發(fā)頻率和互動(dòng)評(píng)論內(nèi)容等,可以計(jì)算出每位在校大學(xué)生的學(xué)習(xí)狀態(tài),從而構(gòu)建學(xué)生學(xué)習(xí)畫像,預(yù)測(cè)學(xué)生學(xué)習(xí)成效,進(jìn)而幫助教師更好地關(guān)注學(xué)生的學(xué)習(xí)狀態(tài)和身心健康。此外,根據(jù)統(tǒng)計(jì)的數(shù)據(jù)記錄能夠輔助學(xué)校政策的制定,使得制定的政策更加人性化和專業(yè)化。

  3 基于大數(shù)據(jù)技術(shù)的學(xué)習(xí)畫像構(gòu)建(Construction of learning portrait based on big data technology)

  現(xiàn)行的用戶畫像主要運(yùn)用網(wǎng)絡(luò)流算法檢驗(yàn)學(xué)生的學(xué)習(xí)狀態(tài),重點(diǎn)運(yùn)用多層次聚類分析算法進(jìn)行數(shù)據(jù)挖掘,運(yùn)用多元回歸分析和神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)學(xué)生學(xué)習(xí)成績(jī)及掛科率。鑒于一些高校對(duì)學(xué)生考評(píng)測(cè)評(píng)方式僅限于結(jié)構(gòu)化數(shù)據(jù)的成績(jī)分析,且存在數(shù)據(jù)挖掘意識(shí)不強(qiáng)等問題[3],本項(xiàng)目對(duì)高校學(xué)生學(xué)習(xí)、消費(fèi)、網(wǎng)絡(luò)使用及生活等行為方面的結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理和挖掘,構(gòu)建學(xué)生學(xué)習(xí)畫像,從而為學(xué)生個(gè)性化學(xué)習(xí)、學(xué)生問題預(yù)警、輔助學(xué)校決策等提供數(shù)據(jù)驅(qū)動(dòng),以加強(qiáng)高校優(yōu)良學(xué)風(fēng)建設(shè)。學(xué)生學(xué)習(xí)畫像構(gòu)建步驟如下:

  第一步:將目標(biāo)用戶畫像問題轉(zhuǎn)化為學(xué)生學(xué)習(xí)畫像問題。

  學(xué)生學(xué)習(xí)畫像分析本質(zhì)上是從學(xué)生的角度思考問題,涉及若干學(xué)生用戶群體、若干學(xué)生用戶行為。網(wǎng)絡(luò)課程通常有三種學(xué)習(xí)用戶——存量學(xué)習(xí)用戶、流失學(xué)習(xí)用戶、潛在學(xué)習(xí)用戶,涉及學(xué)生基本信息、學(xué)習(xí)目的、學(xué)習(xí)方式、學(xué)習(xí)態(tài)度、學(xué)習(xí)成效、學(xué)習(xí)評(píng)價(jià)和體驗(yàn)等,因此分門別類解釋邏輯尤為重要。

  第二步:宏觀假設(shè)驗(yàn)證。

  轉(zhuǎn)化完問題后,需在拆解以前聚焦假設(shè),先在宏觀上對(duì)假設(shè)進(jìn)行檢驗(yàn),有效避免無限拆解的錯(cuò)誤。進(jìn)行大方向檢驗(yàn),可以有效縮小懷疑范圍。懷疑范圍越小,后續(xù)對(duì)學(xué)生用戶分析越精確[4]。當(dāng)數(shù)據(jù)不足的時(shí)候,能改善數(shù)據(jù)質(zhì)量,做出準(zhǔn)確分析。

  第三步:構(gòu)建分析邏輯。

  宏觀驗(yàn)證以后,可基于已驗(yàn)證的結(jié)論,構(gòu)建更細(xì)致的分析邏輯。在這個(gè)階段,實(shí)際上已經(jīng)把原本龐大的問題聚焦為一個(gè)個(gè)小問題。學(xué)生學(xué)習(xí)畫像構(gòu)建框架可劃分為三個(gè)層次:數(shù)據(jù)源層、數(shù)據(jù)挖掘?qū)雍蜆I(yè)務(wù)應(yīng)用層。數(shù)據(jù)源層需要對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行提取;數(shù)據(jù)挖掘?qū)觿t需對(duì)所提取的數(shù)據(jù)建模,針對(duì)所建立的模型和運(yùn)算結(jié)果進(jìn)行充分應(yīng)用,是業(yè)務(wù)應(yīng)用層的基礎(chǔ)。學(xué)生學(xué)習(xí)畫像構(gòu)建框架具體如圖1所示。

  3.1 學(xué)生學(xué)習(xí)畫像的數(shù)據(jù)預(yù)處理

  鑒于本文所需爬取的數(shù)據(jù)均存在于高校的學(xué)生信息數(shù)據(jù)庫和各大學(xué)習(xí)網(wǎng)絡(luò)平臺(tái)上,且各大學(xué)習(xí)網(wǎng)絡(luò)都提供了API,在數(shù)據(jù)爬取前申請(qǐng)key,以json形式返回文檔,方便解析。通過各種學(xué)習(xí)、社交平臺(tái)和上網(wǎng)流量監(jiān)控,對(duì)學(xué)生的學(xué)習(xí)數(shù)據(jù)進(jìn)行爬取。若數(shù)據(jù)呈結(jié)構(gòu)化狀態(tài)則直接提取,若數(shù)據(jù)呈非結(jié)構(gòu)化狀態(tài)則先對(duì)其進(jìn)行賦值,再做數(shù)據(jù)無量綱化處理。利用模糊c均值聚類法和詞云圖過濾掉大量的文本信息及異常值,數(shù)據(jù)爬取時(shí)盡可能獲取全量的學(xué)生學(xué)習(xí)數(shù)據(jù),為教師對(duì)學(xué)生學(xué)習(xí)成績(jī)的分析提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),如學(xué)生成績(jī)數(shù)據(jù)、學(xué)生上網(wǎng)數(shù)據(jù)、學(xué)生消費(fèi)數(shù)據(jù)、學(xué)生課堂行為數(shù)據(jù)及教師反饋數(shù)據(jù)等相關(guān)數(shù)據(jù)。數(shù)據(jù)來源如圖2所示。提取相應(yīng)的數(shù)據(jù),量化后建立標(biāo)簽。

  (1)基本信息標(biāo)簽

  基本信息是指一個(gè)學(xué)生的基本信息和變更頻率較低的代表性指標(biāo),此處提取學(xué)生的學(xué)號(hào)、姓名、性別、專業(yè)、班級(jí)及所關(guān)注的方向等,這些指標(biāo)可以直接獲取。

  (2)學(xué)習(xí)風(fēng)格標(biāo)簽

  學(xué)習(xí)風(fēng)格是學(xué)生用戶非常重要的一個(gè)方面,學(xué)生對(duì)學(xué)習(xí)方式的偏好及喜愛程度是學(xué)生學(xué)習(xí)畫像最重要的信息之一,是對(duì)用戶和學(xué)習(xí)方式之間的關(guān)系進(jìn)行深度刻畫的重要標(biāo)簽,其中最典型的是視覺(影視網(wǎng)課)、聽覺(語音錄播)、言語(交流討論)。

  (3)內(nèi)容偏好標(biāo)簽

  內(nèi)容偏好記錄的是大學(xué)生學(xué)習(xí)、瀏覽、關(guān)注的內(nèi)容。學(xué)生的瀏覽內(nèi)容行為包括信息檢索、頁面瀏覽和資源下載等。由于這些瀏覽內(nèi)容行為種類繁多且和不同的學(xué)習(xí)平臺(tái)、不同的模塊交互,不同時(shí)間進(jìn)行不同操作,導(dǎo)致行為屬性更加復(fù)雜。針對(duì)如何能夠全面梳理,怎樣才能集成抽取出學(xué)生的內(nèi)容偏好,可以按照?qǐng)D2所示的分類方法來進(jìn)行。

  (4)社交互動(dòng)標(biāo)簽

  學(xué)生學(xué)習(xí)時(shí)會(huì)進(jìn)行社交、分享等一系列互動(dòng)活動(dòng),主要有資源分享轉(zhuǎn)發(fā)、收藏、互動(dòng)評(píng)論等。在該過程中,有些學(xué)生會(huì)瀏覽比較陌生的領(lǐng)域知識(shí),而有些內(nèi)容要通過一定知識(shí)量和案例的引導(dǎo)才會(huì)促使學(xué)生更深入地學(xué)習(xí)。通過建立社交活動(dòng)標(biāo)簽,可對(duì)不同專業(yè)的學(xué)生推送合理的學(xué)習(xí)資源,保證資源被學(xué)生最大化利用,使得投資回報(bào)率最大。該標(biāo)簽下多種不同屬性的敏感度代表大學(xué)生對(duì)學(xué)習(xí)平臺(tái)的敏感程度,也是典型的挖掘類標(biāo)簽。

  學(xué)生標(biāo)簽分類示意圖如圖3所示。

  3.2 學(xué)生個(gè)性化學(xué)習(xí)模塊

  構(gòu)建學(xué)生學(xué)習(xí)個(gè)性化推薦模塊的核心任務(wù)之一是準(zhǔn)確分析學(xué)生的興趣、特長(zhǎng)、潛能,用完備且準(zhǔn)確的屬性標(biāo)簽對(duì)學(xué)生學(xué)習(xí)情況進(jìn)行全覆蓋,從而極大促進(jìn)精準(zhǔn)學(xué)生個(gè)性化學(xué)習(xí)模塊推薦。根據(jù)數(shù)據(jù)源層抽取的數(shù)據(jù)并且結(jié)合已構(gòu)建的學(xué)習(xí)畫像,利用KNN與樸素貝葉斯模型形成推薦列表。根據(jù)已確立的標(biāo)簽存入數(shù)據(jù)訓(xùn)練樣本集,每條數(shù)據(jù)記錄都有其對(duì)應(yīng)的屬性及標(biāo)簽。當(dāng)輸入新的學(xué)生記錄時(shí),此時(shí)該條數(shù)據(jù)不具備標(biāo)簽,將新數(shù)據(jù)中的樣本與該條記錄最相似的數(shù)據(jù)進(jìn)行比對(duì),從而提取標(biāo)簽集,故可根據(jù)新建后的標(biāo)簽進(jìn)行聚類分析。提取學(xué)生學(xué)習(xí)時(shí)的特征即上述不同標(biāo)簽下的子屬性計(jì)算學(xué)生學(xué)習(xí)偏好與學(xué)習(xí)數(shù)據(jù)庫中的學(xué)習(xí)資源之間的相似度,再運(yùn)用KNN分類器,按照遠(yuǎn)近距離分配學(xué)習(xí)資源給不同的用戶群,形成學(xué)習(xí)資源的個(gè)性化推薦。針對(duì)學(xué)習(xí)資源推薦,分類的任務(wù)即為特定學(xué)生尋找合適的學(xué)習(xí)資源,用準(zhǔn)確率(Precision)和召回率(Recall)衡量推薦成效,準(zhǔn)確率表示學(xué)生對(duì)該項(xiàng)學(xué)習(xí)資源感興趣的概率,召回率為學(xué)生感興趣的資源被成功推薦的概率,準(zhǔn)確率和召回率值越大表示推薦效果越好。用F表示準(zhǔn)確率和召回率的調(diào)和平均值,其值越大表示推薦質(zhì)量越高。

  具體計(jì)算模型如下:

  上式中,表示成功推薦給學(xué)生S的有效學(xué)習(xí)資源數(shù)量,表示推薦學(xué)習(xí)資源數(shù)量,表示符合學(xué)生需求的推薦學(xué)習(xí)資源數(shù)量,Precision代表準(zhǔn)確率,Recall代表召回率。

  召回步驟完成初篩,幫助分析學(xué)生學(xué)習(xí)興趣偏好,為進(jìn)入下一流程進(jìn)行粗排和精排做準(zhǔn)備。對(duì)學(xué)生學(xué)習(xí)、消費(fèi)、網(wǎng)絡(luò)使用及生活等行為數(shù)據(jù)進(jìn)行分析,完成打分,從而最終推斷出學(xué)生大致的學(xué)習(xí)風(fēng)格,達(dá)到為學(xué)生推薦個(gè)性化學(xué)習(xí)資源的目的。

  3.3 問題預(yù)警模塊

  根據(jù)已構(gòu)建的學(xué)習(xí)畫像,結(jié)合學(xué)生在校線上及線下統(tǒng)計(jì)數(shù)據(jù)建模,對(duì)學(xué)生課堂學(xué)習(xí)、上網(wǎng)信息、門禁記錄等結(jié)果進(jìn)行量化分析。運(yùn)用BP神經(jīng)網(wǎng)絡(luò)、RBF徑向基模型,輸入相應(yīng)向量訓(xùn)練網(wǎng)絡(luò)以達(dá)到局部逼近任意連續(xù)函數(shù)[5]。考慮到在訓(xùn)練過程中分布逐漸偏移變動(dòng)降低收斂速度,為防止模型過分?jǐn)M合,故添加Batch Normalization層,為的是將輸入的學(xué)生成績(jī)數(shù)據(jù)數(shù)值進(jìn)行標(biāo)準(zhǔn)化,緩解后期DNN訓(xùn)練中的梯度消失問題,加快模型的訓(xùn)練速度,使輸出的特征圖均勻度提升,增大梯度,提升收斂度,讓模型趨于穩(wěn)定,從而根據(jù)學(xué)生個(gè)人屬性綜合趨勢(shì)對(duì)成績(jī)穩(wěn)定性和掛科率進(jìn)行預(yù)測(cè)。分析學(xué)生學(xué)習(xí)效率與掛科率、網(wǎng)絡(luò)使用、消費(fèi)情況及失聯(lián)記錄等之間的關(guān)系,進(jìn)而設(shè)立預(yù)警條件,達(dá)到預(yù)警目的。

  3.4 輔助學(xué)校決策模塊

  學(xué)生畫像的構(gòu)建,可重點(diǎn)結(jié)合學(xué)校管理實(shí)際需求,分析所關(guān)聯(lián)的學(xué)生數(shù)據(jù)。可以進(jìn)行問卷調(diào)查,從而完成描述性統(tǒng)計(jì),并結(jié)合上文所構(gòu)建的學(xué)生學(xué)習(xí)畫像模型[6]進(jìn)行比對(duì),直至提出最有利于學(xué)生的有關(guān)決策方案,為學(xué)校實(shí)現(xiàn)淺層干預(yù)與深層干預(yù)相結(jié)合的目標(biāo)提供支撐,使制度政策能更好地服務(wù)于學(xué)生。

  推薦閱讀:大數(shù)據(jù)挖掘的論文投刊指導(dǎo)

主站蜘蛛池模板: 桃源县| 拉萨市| 酒泉市| 进贤县| 哈尔滨市| 监利县| 尚义县| 岳普湖县| 讷河市| 九寨沟县| 平乡县| 宾川县| 额尔古纳市| 葫芦岛市| 斗六市| 江津市| 炉霍县| 惠州市| 望都县| 特克斯县| 临沭县| 南汇区| 循化| 七台河市| 广饶县| 古田县| 黑水县| 临夏市| 南涧| 集贤县| 吕梁市| 化隆| 丹东市| 正阳县| 板桥市| 莱阳市| 任丘市| 巴青县| 绥化市| 临西县| 陆良县|