狠狠色噜噜狠狠狠狠2021,久久精品国产亚洲av麻豆白洁,777米奇影视盒,国内精品老年人视频网站

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

投稿用戶 ? 2024年7月9日上午8:29 ? 科研百科 ? 閱讀 32

阿里云機器學(xué)習(xí)平臺PAI與華東師范大學(xué)高明教授團(tuán)隊合作在SIGIR2022上發(fā)表了結(jié)構(gòu)感知的稀疏注意力Transformer模型SASA，這是面向長代碼序列的Transformer模型優(yōu)化方法，致力于提升長代碼場景下的效果和性能。由于self-attention模塊的復(fù)雜度隨序列長度呈次方增長，多數(shù)編程預(yù)訓(xùn)練語言模型（Programming-based Pretrained Language Models, PPLM）采用序列截斷的方式處理代碼序列。SASA方法將self-attention的計算稀疏化，同時結(jié)合了代碼的結(jié)構(gòu)特性，從而提升了長序列任務(wù)的性能，也降低了內(nèi)存和計算復(fù)雜度。

論文：Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, and Aoying Zhou. Understanding Long Programming Languages with Structure-Aware sparse Attention. SIGIR 2022

模型框架

下圖展示了SASA的整體框架：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

其中，SASA主要包含兩個階段：預(yù)處理階段和Sparse Transformer訓(xùn)練階段。在預(yù)處理階段得到兩個token之間的交互矩陣，一個是top-k frequency矩陣，一個是AST pattern矩陣。Top-k frequency矩陣是利用代碼預(yù)訓(xùn)練語言模型在CodeSearchNet語料上學(xué)習(xí)token之間的attention交互頻率，AST pattern矩陣是解析代碼的抽象語法樹（Abstract Syntax Tree，AST ），根據(jù)語法樹的連接關(guān)系得到token之間的交互信息。Sparse Transformer訓(xùn)練階段以Transformer Encoder作為基礎(chǔ)框架，將full self-attention替換為structure-aware sparse self-attention，在符合特定模式的token pair之間進(jìn)行attention計算，從而降低計算復(fù)雜度。

SASA稀疏注意力一共包括如下四個模塊：

Sliding window attention：僅在滑動窗口內(nèi)的token之間計算self-attention，保留局部上下文的特征，計算復(fù)雜度為，為序列長度，是滑動窗口大小。
Global attention：設(shè)置一定的global token，這些token將與序列中所有token進(jìn)行attention計算，從而獲取序列的全局信息，計算復(fù)雜度為，為global token個數(shù)。
Top-k sparse attention：Transformer模型中的attention交互是稀疏且長尾的，對于每個token，僅與其attention交互最高的top-k個token計算attention，復(fù)雜度為。
AST-aware structure attention：代碼不同于自然語言序列，有更強的結(jié)構(gòu)特性，通過將代碼解析成抽象語法樹（AST），然后根據(jù)語法樹中的連接關(guān)系確定attention計算的范圍。

為了適應(yīng)現(xiàn)代硬件的并行計算特性，我們將序列劃分為若干block，而非以token為單位進(jìn)行計算，每個query block與

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個滑動窗口blocks和

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個global blocks以及

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個top-k和AST blocks計算attention，總體的計算復(fù)雜度為

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

，

b為block size。

每個sparse attention pattern 對應(yīng)一個attention矩陣，以sliding window attention為例，其attention矩陣的計算為：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

ASA偽代碼：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

實驗結(jié)果

我們采用CodeXGLUE[1]提供的四個任務(wù)數(shù)據(jù)集進(jìn)行評測，分別為code clone detection，defect detection，code search，code summarization。我們提取其中的序列長度大于512的數(shù)據(jù)組成長序列數(shù)據(jù)集，實驗結(jié)果如下：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

從實驗結(jié)果可以看出，SASA在三個數(shù)據(jù)集上的性能明顯超過所有Baseline。其中Roberta-base[2]，CodeBERT[3]，GraphCodeBERT[4]是采用截斷的方式處理長序列，這將損失一部分的上下文信息。Longformer[5]和BigBird[6]是在自然語言處理中用于處理長序列的方法，但未考慮代碼的結(jié)構(gòu)特性，直接遷移到代碼任務(wù)上效果不佳。

為了驗證top-k sparse attention和AST-aware sparse attention模塊的效果，我們在BigCloneBench和Defect Detection數(shù)據(jù)集上做了消融實驗，結(jié)果如下：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

sparse attention模塊不僅對于長代碼的任務(wù)性能有提升，還可以大幅減少顯存使用，在同樣的設(shè)備下，SASA可以設(shè)置更大的batch size，而full self-attention的模型則面臨out of memory的問題，具體顯存使用情況如下圖：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

SASA作為一個sparse attention的模塊，可以遷移到基于Transformer的其他預(yù)訓(xùn)練模型上，用于處理長序列的自然語言處理任務(wù)，后續(xù)將集成到開源框架EasyNLP（https://github.com/alibaba/EasyNLP）中，貢獻(xiàn)給開源社區(qū)。

論文鏈接：https://arxiv.org/abs/2205.13730

參考文獻(xiàn)

[1] Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin B. Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation. NeurIPS Datasets and Benchmarks 2021

[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019)

[3] Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou. CodeBERT: A Pre-Trained Model for Programming and Natural Languages. EMNLP 2020

[4] Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin B. Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, Ming Zhou. GraphCodeBERT: Pre-training Code Representations with Data Flow. ICLR 2021

[5] Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. CoRR abs/2004.05150 (2020)

[6] Manzil Zaheer, Guru Guruganesh, Kumar Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Onta?ón, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed. Big Bird: Transformers for Longer Sequences. NeurIPS 2020

原文鏈接：http://click.aliyun.com/m/1000348767/

本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。

贊 (0)

0

關(guān)于彩票分析工具的便捷性對比

上一篇 2024年7月9日上午8:23

如何進(jìn)行高效的代碼審查？（如何進(jìn)行高效的代碼審查）

下一篇 2024年7月9日上午8:35

華西為什么牛逼

華西為什么牛逼華西是中國最著名的醫(yī)院之一，也是中國最具實力的綜合性醫(yī)院之一。它之所以牛逼，是因為它擁有眾多優(yōu)秀的醫(yī)療設(shè)備和醫(yī)療技術(shù)，并且擁有高水平的醫(yī)護(hù)人員。華西擁有最先進(jìn)的醫(yī)…

投稿用戶
科研百科 2024年11月21日
130
大學(xué)科研項目有什么用

大學(xué)科研項目的用處大學(xué)科研項目是推動科技進(jìn)步的重要力量，其用處涵蓋了多個領(lǐng)域。以下是一些科研項目的主要用途： 1. 培養(yǎng)人才大學(xué)科研項目不僅是為了推動科學(xué)技術(shù)的發(fā)展，也是為了培…

投稿用戶
科研百科 2024年10月19日
70
威海市在全省機關(guān)黨建理論研討交流會作典型發(fā)言（全國機關(guān)黨建理論研討會）

記者李英豪通訊員李孟君 6月20-21日，全省機關(guān)黨建理論研討交流會召開，省直有關(guān)部門、各市及部分縣市區(qū)代表參加會議。威海市委市直機關(guān)工委作為全省2個市之一作典型發(fā)言，交流機…

投稿用戶
科研百科 2024年6月23日
420
科研百科

基金會投資活動的七個基本法律問題（投資基金按照法律形式）

作者：臧海川朱慧 #基金會##《基金會管理條例》一、什么是基金會？根據(jù)《基金會管理條例》相關(guān)規(guī)定，基金會是指利用自然人、法人或者其他組織捐贈的財產(chǎn)，以從事公益事業(yè)為目的，按照…

投稿用戶
2022年7月21日
4850
湖北省稅務(wù)局周紅兵

湖北省稅務(wù)局周紅兵：稅收是社會公平的體現(xiàn) 稅收是社會運轉(zhuǎn)的重要支撐，是保障社會公平、促進(jìn)社會發(fā)展的重要手段。湖北省稅務(wù)局周紅兵表示，稅收是社會公平的體現(xiàn)，也是國家治理現(xiàn)代化的重要保…

投稿用戶
科研百科 2024年10月20日
80
項目管理主要作用于(項目管理適用于)

項目管理適用于項目管理適用于Aconveal common listening (網(wǎng)址:https://www.square/couraged/couraged/nature_tr…

投稿用戶
科研百科 2024年5月19日
390
ERP在哪個班組就到哪是什么意思

ERP(Enterprise Resource Planning，企業(yè)資源計劃)是一種用于管理企業(yè)內(nèi)部資源和業(yè)務(wù)流程的信息系統(tǒng)。在現(xiàn)代企業(yè)中，ERP系統(tǒng)已經(jīng)成為企業(yè)管理不可或缺的一…

投稿用戶
科研百科 2024年11月30日
30
試述我國古代中醫(yī)學(xué)和中藥學(xué)方面的成就（試述我國古代中醫(yī)學(xué)和中藥學(xué)方面的成就有哪些）

在中國古代科學(xué)的各分支中，未被近現(xiàn)代科學(xué)所融匯，且至今仍有強烈生命力的，唯有傳統(tǒng)的中國醫(yī)藥學(xué)。其所以能夠如此，原因之一是它擁有自己的理論、方法和內(nèi)容，即形成為一個完善的科學(xué)體系。中…

投稿用戶
科研百科 2024年4月8日
1070
移動辦公管理軟件

移動辦公管理軟件：讓辦公更高效隨著科技的不斷發(fā)展，移動辦公已經(jīng)成為現(xiàn)代辦公的一種主流方式。無論是遠(yuǎn)程辦公還是現(xiàn)場辦公，都可以通過手機或平板電腦來訪問和管理各種文檔、表格、郵件和…

投稿用戶
科研百科 2024年9月25日
20
如何發(fā)揮黨建帶團(tuán)建作用（如何發(fā)揮黨建帶團(tuán)建作用,深化群團(tuán)組織建設(shè)）

黨建帶團(tuán)建工作是黨在新時期進(jìn)一步加強和改善黨對青年工作領(lǐng)導(dǎo)的時代需求。在加強黨的建設(shè)的同時加強團(tuán)的建設(shè)，不斷增強團(tuán)組織的吸引力、凝聚力和戰(zhàn)斗力，對于共青團(tuán)更好地當(dāng)好黨的助手和后備軍…

投稿用戶
科研百科 2023年6月23日
3150

<sub id="9iaht"><i id="9iaht"><tr id="9iaht"></tr></i></sub>