본문 바로가기
학부생의학부연구생/_paper

[Newspaper] Accelerating AI

by 호상 🐧 2022. 7. 21.

#학부연구생 세미나 발표를 위한 정리

#CACM Newspaper

#영어 실력이 뛰어나지 않아 본문의 해석이 잘못 될 수도 있습니다.

 

https://cacm.acm.org/magazines/2022/3/258897-accelerating-ai/fulltext#PageTop

 

Accelerating AI

Specialized hardware to boost the speed of machine learning also saves energy.

cacm.acm.org

 

Accelerating AI

넓은 범용 어플리케이션의 대한 머신러닝의 성공은 막대한 비용을 수반한다. 거대한 딥 뉴런 네트워크는 거대한 데이터 셋을 조정하는데 필요한 수천억개의 파라미터를 가질 수 있다. 이러한 집약적인 연산 훈련 과정은 수백만 달러, 많은 양의 에너지 비용, 탄소 관련 비용을 지불할 수 있다. 새로운 데이터의 대한 훈련 모델의 후속 어플리케이션 추론은 각각의 용도의 대해 비용이 적지만, 널리 사용되는 어플리케이션의 누적 에너지 사용은 훨씬 많을 수 있다.

 

( training을 할때 많은 cost 가 필요하다. ex - 수백만 달러, 많은 양의 에너지 비용, 탄소 관련 비용 )

 

David Patterson 이 말하길, "일반적으로 훈련보다 추론에서 더욱 에너지를 사용할 수 있을 것이다" 라고 한다. Patterson 과 그의 동료들은 최근에 일부 큰 딥 러닝 어플리케이션으로 부터 탄소 배출의 포괄적인 분석을 게시했고, 훈련 개선을 위해 투자된 에너지는 향상된 모델을 통해 추론 비용을 줄임으로써 더욱 보상 받을 수 있을것이라는 것을 찾았다.

 

( training 보다 inference 가 더욱 에너지를 사용할 것이다. 그리고 training 개선을 위해 투자한 에너지는 inference 에서 cost 를 낮추면서 더욱 에너지 이득을 볼것이다. )

 

논문에서는 사용자들이 연산을 위해 탄소 집약도가 낮은 전력원을 선택함으로써 얻는 에너지 절약 이상으로 탄소 배출량을 줄일 수 있다고 언급했다. Alexandra 가 말하길 "당신이 오스트레일리아산 석탄 그리드와 비교하여 태양열 에너지 그리드를 선택 한다면,  80배 정도 배출량을 줄일 수 있다" 라고 말한다. 많은 경우에서 Luccioni 는 이러한 감소가 원격 장소로 데이터를 전송하기 위해 필요한 에너지에 대해 더욱 더 보상 될것이라 의심했지만, 이러한 trade-offs 는 정량화가 필요하다.

 

( 낮은 전력원을 선택함으로써 에너지 절약 이상으로 탄소 배출량을 줄일 수 있다. 그리고 석탄 보다 태양열을 선택한다면 탄소 배출량을 80배 정도 줄일 수 있다. 이러한 trade-offs 는 전송하기 위해 필요한 에너지에 대해 더욱 이득을 볼 수 있을것이라 생각하지만 확실하지 않아 정량화가 필요하다. )

 

Specialized Accelerators

컴퓨팅에 사용되는 에너지의 양은 현재 전세계적으로 상당하다. 역사적으로, 전력 요구사항 증가는 크게 무어 법칙을 통한 더 효과적인 기술로 인해 상쇄되어 졌었고, 제조사들은 계속해서 차세대 혁신적인 기술을 도입해 왔다. 하지만 2000년대 초 부터, operating voltage 와 같은 중요한 디바이스 파라미터들은 더 이상 옛날 스케일링 전략을 따라오지 못했고 전력률 개선은 느려졌다고 Jonathan Koomey 는 말했다.

 

( 컴퓨팅에 사용되는 에너지 양은 전세적으로 상당한데, 2000년대 전에는 무어법칙과 같은 기술들로 커버가 가능했지만, 2000년대 초 부터 옛날 전략들로는 커버가 안됐다. ) 

 

그럼에도 불구하고, 그는 "적어도 당분간은 이것을 우회할 방법이 있다." 라고 말했다. "이러한 우회하는 방법들은 때때로 더나은 소프트웨어를 포함하거나, 하드웨어와 소프트웨어를 최적화 하거나, 일반 목적 컴퓨터보다 특정 일들을 더 빨리 수행 할 수 있는 특수 목적 컴퓨터 디바이스를 사용하는 것이다. "

 

(우회하는 방법들 열거 )

 

자체과정을 수행하는 회사들과 마찬가지로 웹 서비스 제공자들도 딥러닝을 위한 특수한 하드웨어 가속기들을 점점 사용하는 추세이고, 스타트업 회사들도 이런 기회를 활용하여 움직이고 있다. 이러한 가속기들은 주로 연산 속도를 높이는 것에 목표로 하지만, 이것들은 데이터 전송과 불필요한 작업들의 수를 줄임으로써 에너지 사용을 상당히 줄인다.

 

( 요즘 회사들은 하드웨어 가속기를 사용하는 추세이다. 가속기는 연산속도를 높이는 것을 목표로 하지만, 이를 통하여 overhead 를 줄여 에너지 사용을 줄일 수 있다. )

 

딥러닝의 기반이 되는 신경망은 뇌세포를 연산시키는 여러층의 단위로 이루어져 있으며, 각 층은 여러 유사한 단위에 연결되어 있다. 각각의 뉴런의 활동은 다른 뉴런들의 활동의 합을 조정가능한 "가중치"를 통한 곱으로 계산된다. 훈련은 이러한 가중치들로 조정해서 output 은 각각의 input에 대해 원하는 값을 접근하고, 뉴런의 상호 연결 및 응답을 의미하는 대체 모델을 탐색 할 수도 있다.   

 

( 딥러닝 신경망 설명 )

 

필요한 계산들은 소규모 작업에는 편리한 범용 CPU를 사용하는 것으로 수행할 수 있다. 그러나 더 성숙해지고 거대한 작업에 따라 속도와 에너지 효율성 측면 모두에서 특수 하드웨어를 추가함으로써 계산의 병렬처리와 예측가능성을 할용하려는  강력한 동기가 생긴다.  

 

( 작은 규모의 작업은 CPU 를 사용하여 수행할 수 있지만, 규모가 커지게 되면 특수 하드웨어를 사용하는것이 이득이다. )

 

많은 사용자들 특히 training 하는 동안 가속을 위해 GPU를 활용한다. 이러한 디바이스가 디스플레이 작업과 이미지 렌더링을 위해 개발 되었지만, 다중 누적 연산을 위해 최적화된 이것들의 높은 병렬 구조는 신경망에 적합하다. 이런 시장은 현재 인공지능 어플리케이션용 디바이스를 판매하고 있는 NVIDIA 와 AMD 가 지배되어 있다. 가장 진보된 GPU는 높은 대역폭 통신을 지원하는 single advanced package 에 고성능 프로세서 칩과 메모리를 포함한다. 

 

( GPU 의 대한 설명 )

 

몇몇의 이용자 특히 마이크로소프트는 계속해서 딥러닝을 위한 유연한 FPGA를 옹호하고 있다. 그러나 2015년 구글은 음성 프로세싱 추론을 위해 필요한 에너지 서버의 무서운 예측에 의해 동기를 얻어 이것의 TPU 첫번째 버전을 출시했다.

 

( TPU 의 개발 이유?  FPGA vs TPU )   

 

이러한 커스텀 칩들은 "ASIC" 디자인 툴을 사용하여 딥러닝 추론을 위해 특별하게 만들어졌다. 그러나 Patterson이 말하길, "문제는 Application Specific Integrated Circuit의 약어가 오직 하나의 특정 모델만 수행할 수 있는 하드웨어를 구축한 것처럼 들린다" 라고 했다. 실제로 GPU를 포함하여 TPU와 다른 가속기들은 다양한 모델들을 지원할 수 있다.

 

( 커스텀 칩들은 하나의 특정 모델만 수행할 수 있는것이 아니랄 다양한 모델들을 지원할 수 있다. )

 

회사들은 다양한 접근들을 추구하고 있다. 예를 들어 CereBras 기업은 수십개의 프로세싱 유닛을 포함한 칩을 위해 전체에 실리콘 웨이퍼를 사용하여 많은 주목을 받았다. 그럼에도 불구하고 모델들의 급속한 발전과 성장은 계산, 메모리 분배, 통신의 대한 특별한 추정을 구현하여 제공되는 하드웨어의 도전을 제기한다. 예를 들어 최근에 연구자들은 100억개의 파라미터 이상을 갖는 OpenAI의 대규모 언어 모델 GPT-3 과 같은 "transformers"를 통해 굉장한 성공을 이루었다. 

 

( 구글 뿐만 아니라 다른 다양한 회사들도 GPU 개발의 다양한 접근을 하고 있는데, CereBras 의 processing chip, transfomer 와 같은 hardware 개발에 대한 얘기이다. )

 

Big Opportunities

대기업들의 우위와 이러한 도전들에도 불구하고 소규모 기업들은 하드웨어 혁신의 대한 기회를 감지했다. Dacid Brooks 가 말하길 "나는 내 커리어상 이렇게 짧은 시간 동안 매우 많은 하드웨어 스타트업이 탄생한것을 본 적이 없다." 라고 말했다. 또한 그는 전략적 우회를 했거나 이미 사업을 접은 기업들에 대해 설명했는데, "좋은 선택이다. 하지만 이런 과정 안에서 흔들림은 있을것이다." 라고 했다.

( 이러한 발전 / 개발로 인해 많은 스타트업이 생겨났지만, 이를 우회하거나 접은 회사들은 조심해야할 것이다. )

디바이스 디자이너들은 불필요한 operation 들을 스킵하기 위해 다양한 기술들 사용한다. 핵심 전략은 많은 모델들의 "희소성"을 활용한다. Brooks 가 말하길 "가중 행렬 안에는 수많은 0이 생기게 된다. 만약 모든 0을 찾는 방법을 발견하고, 전체 데이터 경로를 통해 전송할 필요가 없다면, 이것을 스킵함으로써 꽤나 많은 에너지를 절약할 수 있을것이다. 다른 모델들의 희소성 또한 활용할 수 있다." 라고 말한다. 예를 들어 0일지도 모르는 수많은 매우 작은 값들을 활용하는것 처럼 말이다.

( 불필요한 operation을 스킵하기 위한 다양한 기술들이 있는데, 핵심 전략은 모델의 희소성을 활용하는것. 예를 들어 가중 행렬에 수많은 0이 생기고, 이를 찾는 방법을 발견하고 데이터를 전송할 필요가 없다면, 전송과정을 스킵함으로써 많은 에너지를 절약할 수 있다. 다른 예로 0일지도 모르는, 0과 비슷한 매우 작은 값들을 활용하는것. ) 

Andrew Lohn이 말하길, "내가 만났던 가장 큰 것은 instruction-set level 에서 정확도가 떨어지는 것이다. 그것은 더 빠르고 더 효과적인 operations 을 가능하게 한다. 왜냐하면 딥러닝 어플리케이션은 효과적인 추론 과정을 위해 모든 정확도를 필요로 하지 않기 때문이다. " 라고 말했다.

( 딥러닝 어플리케이션에서 정확도가 떨어지는 것은 더 빠르고 더 효과적인 operations 을 가능하게 한다. ) 

 

모델들의 급속한 발전과 성장은 계산의 대한 특정한 추정, 메모리 분배, 통신을 구현한 전용 하드웨어의 도전을 제기한다.또한 Patterson 은 off-chip DRAM의 고 대역폭 연결 뿐만 아니라 칩에서 필요로하는 위치에 SRAM을 배치하는것을 포함하는 메모리 디자인의 중요성도 강조한다. 산수 단위도 중요하긴하지만 에너지와 시간이 사용되는 곳은 메모리 접근이라고 말했다. 

( 대역폭 연결 뿐만 아니라 메모리 디자인도 중요하다. 에너지와 시간이 소모되는 곳은 메모리 접근에 있다. )

"혁신가들은 종종 하드웨어에 집중한다. 그리고 대다수는 소프트웨어 스택에 투자하지 않는다" 라고 Patterson은 말했다. 대부분의 기업들은 MLPerf 제품군과 같은 벤치마크의 결과물들을 발표하지 않는다. Patterson은 걱정하며 말했다. "이것은 정말 나쁜 징조이다. "

( 대다수 하드웨어에는 집중하지만 소프트웨어 스택에는 투자하지않는다. 또한 대부분의 기업들은 벤처마크의 결과물들을 발표하지 않는다. )

"특정 모델과 함께 작업하는 하드웨어를 최적화하는 것은 이용자들이 더욱 포괄적인 디자인 프로세스에 나아가게 할 수 있었다. 어떤 의미에서 Codesign 은 추상화를 깨고, 스택에서 다중 레이어에 걸친 것들을 디자인하도록 노력한다. 역설적이게도 머신러닝은 아마도 그러한 추상화의 일부를 깨고 그것을 야기하는 일부 문제들을 완화하는 좋은 방법일 것이다." 라고 말했다.  

( 특정모델과 함께 작업하는 하드웨어를 최적화하는것은 이용자들에게 길을 제공한다. ) 

 

Hyperscale Computations

AI의 모든 에너지와 탄소 영향은 가속 칩들 뿐만아니라 off-칩과 장거리 데이터 전송은 물론 파워 공급과 냉각과 같은 시설 인프라의 거대한 에너지의 overhead 를 포함한다. Koomey 가 말하길 " 구글은 확실히 효율적인 측면에서 최첨단을 달리고 있다" 라고 말했다. 검색엔진 거인 ( 대기업 or 구글 ) 은 오직 Hyperscale datacenter들의 계산 에너지의 10% 정도 초과했음을 발표했다. 그는 대체로 다른 시설, 특히 기업 서버의 활용도가 낮은 시설보다 대체로 낮다고 말했다. 

 

( AI 의 에너지 사용과 탄소 영향은 다양한 측면에서 발생한다. 그 점에서 구글같은 검색엔진 대기업은 Hyperscale datacenter 들과 비교했을 때 computing 에너지가 10% 밖에 차이가 나지 않는다. ) 

 

때때로 기업간의 경쟁이 원인이 되어 에너지 사용의 대한 투명성이 약해지는 문제가 남아 있다. Koomey는 제한된 정보는 AI 에너지 사용의 오해의 소지가 있는 비관적인 추정을 기여한다고 주장했다.

 

( Koomey 씨는 AI 에너지 사용의 대한 투명성이 약해지는 문제가 있는데 이는 안타까운 추정을 하는것에 기여된다고 주장한다. )

 

"실제로 제공자들에게 많은 계산을 호스팅 하는것은 활용성을 높이지만, 대규모 cluster 에서 실행할 때 주어진 프로세스나 이용자의 에너지 소비를 분리하는것은 힘들다." 라고 Mila's Luccioni 는 말했다. 출판물은 종종 다른 중요한 디테일을 빠뜨린다. 그리고 그녀와 그녀의 동료들은 논문을 통해 이러한 정보를 얻는것이 불가능하다는 것을 발견한 후 평가 도구를 개발했다. 그녀는 또한 처음으로 이 디바이스(평가 도구)를 만드는것의 에너지와 탄소 소모비용에 대해 걱정한다. Luciani는 탄소 영향과 에너지의 표본화된 공개가 재현성을 촉진하기 위해 코드와 데이터를 게시하는 것과 같이 출판이나 회의에서 공통의 요구사항이 되는것을 희망했다. 

 

(cluster 에서 실행할 때 주어진 프로세스 또는 이용자의 에너지 소비를 분리하는것은 어려워 정확한 측정이 안되고 논문을 통해 이러한 정보를 얻기 어렵다고 판단하여 직접 평가 tool 을 개발했다. 그녀는 또한 출판물 ( 학회지나 논문 같은것을 말하는것 같다 . ) 이나 reference 에서 탄소 영향이나 에너지의 표본화를 공개 했으면 좋겠다 라고 표현했다. )

 

 

James Teoh Art

댓글