2024년 10월 24일 일일 요약
=============================================
1: Anthropic에서는 Claude 3.5 Sonnet의 업그레이드와 새로운 Claude 3.5 Haiku 모델을 발표하였습니다. Claude 3.5 Sonnet은 코딩 능력이 크게 향상되었으며, 특히 SWE-bench Verified 및 TAU-bench 평가에서 뛰어난 성과를 보였습니다. 새로운 공공 베타 기능인 `computer use`는 Claude가 컴퓨터 사용 방식으로 작업을 수행할 수 있게 해주는 기술입니다. 이를 통해 개발자들은 반복적인 작업을 자동화하고 소프트웨어를 빌드 및 테스트할 수 있습니다. Claude 3.5 Haiku는 이전 버전보다 모든 기술 세트에서 향상된 성능을 제공하며, 사용자 중심의 제품 및 개인화된 경험에 적합합니다.
키워드: Claude 3.5 Sonnet, Claude 3.5 Haiku, computer use, SWE-bench Verified, TAU-bench
출처: https://substack.com/redirect/a7980500-78cf-40dd-8afc-0888016c1d2a?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
2: 2024년 인공지능 보고서는 AI 분야의 주요 발전을 분석하고, AI의 미래에 대한 논의의 촉발을 목표로 합니다. 이번 보고서는 연구, 산업, 정치, 안전, 예측의 다섯 가지 주요 차원에서 AI의 발전과 그 영향을 살펴보았습니다. 주요 내용으로는 프론티어 연구소의 성능이 수렴하며, LLM 연구에 있어 계획 및 추론이 우선시되고 있다는 점, 기초 모델들이 언어를 넘어 다양한 분야에서의 연구를 지원한다는 점, 미국의 제재가 중국 연구소의 모델 생산에 미치는 영향이 미약하다는 점, 그리고 AI 기업의 기업 가치가 9조 달러에 도달했다는 점을 포함합니다. 마지막으로, AI 회사들이 수익을 창출하기 시작했지만 장기적인 지속 가능성에 대한 의문이 남아있다는 점, 존재론적 위험 담론이 다소 완화되었다는 점이 보고되었습니다.
키워드: 프론티어 연구소, LLM, 기초 모델, AI 기업 가치, 존재론적 위험
출처: https://substack.com/redirect/1f1f972b-c447-4012-8b67-7ba45f2df907?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
3: Genmo Inc.에서 새로운 오픈 소스 비디오 생성 모델인 Mochi 1을 발표하였습니다. 해당 모델은 사용자 명령어에 정확하게 따라할 수 있도록 훈련되어 있으며, 최대 5.4초 길이의 비디오를 30fps로 생성할 수 있습니다. Genmo는 이번 발표와 함께 2840만 달러의 시리즈 A 자금을 조달하였으며, Mochi 1은 인공지능의 창의성 관련 기술 개발의 첫 단계로 여겨집니다. 이 모델은 100억 개의 파라미터를 가진 비디오 생성 모델로, 비디오 동작 동역학, 인간 동작 및 물리적 움직임을 이해하여 매우 사실적인 비디오를 생성할 수 있습니다. Genmo는 Mochi 1의 코드 및 가중치를 GitHub과 Hugging Face에 공개하였습니다.
키워드: Genmo, Mochi 1, 비디오 생성, 인공지능, 파라미터, 오픈 소스
출처: https://substack.com/redirect/1dd5d0ab-4a95-4bc2-920b-66e77f4d09a7?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
4: 오늘 메타 FAIR는 고급 기계 지능(AMI)을 달성하기 위한 연구 결과물 및 데이터셋을 공개하였습니다. 새로운 모델인 Meta Segment Anything Model 2.1(SAM 2.1)과 다양한 언어 모델의 효율성 및 기능을 확장하는 연구가 포함되어 있으며, 특히 Meta Spirit LM, Layer Skip, Salsa, Meta Lingua, Meta Open Materials 2024, Mexma, Self-Taught Evaluator와 같은 흥미로운 프로젝트들이 발표되었습니다. 이러한 연구들은 AI의 개방성과 재현성을 높이고, 다양한 분야에서의 활용에 기여할 것으로 기대됩니다.
키워드: Meta FAIR, 머신러닝, 고급 기계 지능, SAM 2.1, 언어 모델, 효율성, 오픈 소스
출처: https://substack.com/redirect/9f6fec1d-6f73-43d8-b609-8c96e4e78db5?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
5: Mistral AI는 새로운 엣지 모델인 Ministral 3B와 8B를 소개합니다. 이 모델들은 10B 미만의 범주에서 지식, 일반 상식, 추론, 기능 호출 및 효율성에서 새로운 기준을 세우며, 128k의 컨텍스트 길이를 지원합니다. 주요 사용 사례로는 기기 내 번역, 인터넷 없는 스마트 비서, 로컬 분석 및 자율 로봇이 있습니다. 두 모델은 성능 벤치마크에서 중간 모델보다 뛰어난 결과를 보입니다. 가격은 Ministral 8B는 $0.1, Ministral 3B는 $0.04로 책정되어 있으며, 상업적 라이센스를 제공합니다.
키워드: Mistral AI, 엣지 모델, Ministral 3B, Ministral 8B, 기능 호출, 벤치마크, 상업적 라이센스
출처: https://substack.com/redirect/d6f24520-8b73-4845-b0fa-66ca32bb6136?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
6: 2024 PyTorch 컨퍼런스가 실리콘 밸리에서 9월 18-19일에 개최됩니다. PyTorch 2.5 버전의 릴리스가 발표되었으며, 주요 기능으로는 CuDNN 백엔드, torch.compile의 지역 컴파일, TorchInductor CPU 백엔드 최적화 등이 있습니다. . 또한 FlexAttention, Compiled Autograd 및 Flight Recorder와 같은 여러 베타 및 프로토타입 기능이 추가되었습니다. 이러한 업데이트는 PyTorch 커뮤니티의 기여로 이루어졌으며, 사용자들은 새로운 기능들을 활용하여 머신러닝 및 딥러닝 작업의 성능을 개선할 수 있습니다.
키워드: PyTorch, CuDNN, torch.compile, FlexAttention, 딥러닝
출처: https://substack.com/redirect/8aaad17e-0601-4619-ae55-bc37597f6fd7?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
7: 본 글에서는 인공지능 에이전트의 메모리에 대한 중요성과 다양한 메모리 유형에 대해 설명하고 있습니다. 메모리는 에이전트의 과거 상호작용을 기억하는 시스템으로, 이는 사용자 경험을 향상시키는데 중요한 역할을 합니다. LLM(대형 언어 모델)은 본래 메모리를 내재적으로 갖고 있지 않으므로, 의도적으로 메모리를 추가해야 합니다. 메모리는 애플리케이션별로 다르게 적용될 수 있으며, 절차적 메모리, 의미적 메모리, 에피소드 메모리의 세 가지 기본 유형으로 나눌 수 있습니다. 각 메모리 유형은 에이전트의 행동과 상호작용을 더욱 효과적으로 관리하는 데 사용됩니다. 또한, 메모리 업데이트 방법에 대해서도 논의되고 있으며, LangChain에서는 메모리를 활용하기 위한 다양한 기능을 제공하고 있습니다.
키워드: 메모리, LLM, 절차적 메모리, 의미적 메모리, 에피소드 메모리, LangChain, 사용자 경험
출처: https://substack.com/redirect/65a58d83-ef25-4dce-b8bb-239bd820697b?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
8: 본 글에서는 Meta의 Llama 3.2 Vision 모델을 Amazon SageMaker에 배포하는 방법에 대해 다루고 있습니다. Hugging Face의 LLM Docker 컨테이너를 사용하여 모델을 손쉽게 관리된 환경에서 배포하며, 인프라 요구 사항 및 배포에 필요한 단계들을 상세하게 설명하고 있습니다. 이 모델은 EU의 사용 제한이 있으며, 이미지를 포함한 입력에 대해 생성된 응답을 수신하는 방법도 소개하고 있습니다.
키워드: Llama 3.2, Amazon SageMaker, Deep Learning, Hugging Face, Inference
출처: https://substack.com/redirect/887f402d-8885-4710-9950-30a859eebf0f?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
9: 본 글에서는 텍스트-비주얼 생성 모델의 평가를 위한 새로운 지표인 VQAScore와 벤치마크 데이터셋 GenAI-Bench를 소개하고 있습니다. VQAScore는 이미지와 텍스트 프롬프트 간의 정렬을 확률로 평가하며, 기존의 CLIPScore보다 인체 평가 결과와 높은 상관관계를 보입니다. 또한, GenAI-Bench는 그래픽 디자이너로부터 수집한 1,600개의 실제 프롬프트로 구성되어, 복잡한 조합적 사고를 요구하는 평가를 수행하는 데 유용합니다. VQAScore는 DALL-E 3와 같은 최신 모델에서도 성능을 향상시킬 수 있는 가능성을 보여줍니다.
키워드: VQAScore, GenAI-Bench, 텍스트-비주얼 생성, CLIPScore, 이미지-텍스트 정렬
출처: https://substack.com/redirect/d6487a79-19e2-4897-9b0c-37de4b615adf?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs
=============================================
10: 본 연구에서는 LLM(대규모 언어 모델)에서 추출한 인간 해석 가능한 기능들을 활용하여 분류기를 훈련하는 방법에 대해 논의하고 있습니다. 기능 기반 분류기를 통해 해로운 바이오무기와 관련된 프롬프트를 분류하는 실험을 진행했으며, 기능을 사용함으로써 성능 향상 및 해석 가능성 향상을 기대할 수 있음을 발견했습니다. 특히, 특징 기반 분류기가 과거 활성화(raw-activation)를 사용한 분류기보다 특정 시나리오에서 더 우수한 성능을 보였고, 불필요한 상관관계를 파악하는 데 유용하다는 점이 강조되었습니다. 다만 기능 사용이 복잡성을 증가시키는 단점이 있으며, 성능이 중요한 응용에서는 원시 활성화를 사용하는 것이 우수한 기준점이 될 수 있습니다.
키워드: 딕셔너리 학습, 기능 기반 분류기, 원시 활성화, 해로운 프롬프트, 스푸리어스 상관관계, Max-pooling, L1 정규화, ROC_AUC
출처: https://substack.com/redirect/75b03996-3e2a-4439-ad04-3f973c7fdc9c?j=eyJ1IjoiNDY3cTJpIn0.5dctKUt2JSQUI0C1UTiYF5n5OCgFpls_-htAXgcvvSs