-
Notifications
You must be signed in to change notification settings - Fork 40
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230423] Weekly AI ArXiv 만담 시즌2 - 15회차 #81
Comments
LiOnConnectLiOn 모델은 초대규모 언어모델을 사내에 설치함으로서 사내 정보가 외부로 유출될 우려를 불식시키면서 자연어모델의 강력한 성능과 효율성을 활용할 수 있도록 해줄 것입니다. HelpWe're looking for someone to join us in implementing a top-performing LiOn model. Reach out to me at the email below with a little bit about yourself. How
Related issues
MVP공개모델인 Cerebars-GPT 기반의 초대규모 언어 모델 MVP Example
Running LangChainCustomSQLDatabaseChain, CustomOpenAI 를 만들어서 기존에 동작하지 않던 Model 사용 가능. Prompts
Example사내의 제품 정보, 물류 정보, 인사규정, 회계기준과 같은 정보는 사내에 유지되어야 하며, 해당 사항에 대한 질의와 답변에 대해서도 비밀이 유지되어야 합니다. LiOn은 사내에 설치하여 사용할 수 있는 경량화된 초거대 언어모델로서 사내의 정보를 안전하게 유지하면서 구성원들이 안전하게 사용할 수 있는 대안을 제공할 수 있습니다. 아래는 그중 하나의 예시이며사내에서의 직원들과의 불화에 대한 상담에 있어 LiOn이 상담하는 사례를 보실 수 있습니다.
심각한 뉴스를 공유합니다.해당 내용은 공개를 할 수도 없는 정도입니다. 이제 페이크 포르노의 퀄리티가 급이 달라질 것입니다. Gen-2 + GPT-4 + HuggingGPT + Auto-GPT + Reflecting on Reflexion = 성착취AGI 입니다. 반응이 없으면 전문을 페이스북과 기자 분들께 드리겠습니다. https://openai.com/blog/bug-bounty-program Stability AI, StableLM 언어 모델 제품군 중 첫 번째 제품 출시4월 19일 "확률적 앵무새, 평면 디자인, 벡터 아트" - Stable Diffusion XL. 오늘 Stability AI는 새로운 오픈 소스 언어 모델인 StableLM을 출시했습니다. 알파 버전의 모델은 30억 개와 70억 개의 매개변수로 제공되며, 150억 개에서 650억 개의 매개변수 모델이 뒤따를 예정입니다. 개발자는 CC BY-SA-4.0 라이선스 조건에 따라 상업적 또는 연구 목적으로 StableLM 기본 모델을 자유롭게 검사, 사용 및 조정할 수 있습니다. 2022년, 스테이블리티 AI는 독점 AI에 대한 투명하고 개방적이며 확장 가능한 대안을 제시하는 혁신적인 이미지 모델인 스테이블 디퓨전의 공개를 주도했습니다. StableLM 모델 제품군의 출시와 함께 Stability AI는 계속해서 모든 사람이 기초적인 AI 기술에 액세스할 수 있도록 하고 있습니다. StableLM 모델은 텍스트와 코드를 생성할 수 있으며 다양한 다운스트림 애플리케이션을 구동할 수 있습니다. 이 모델은 작고 효율적인 모델이 적절한 훈련을 통해 얼마나 높은 성능을 제공할 수 있는지 보여줍니다. StableLM의 출시는 비영리 연구 허브인 EleutherAI와 함께 초기 언어 모델을 오픈소싱한 경험을 기반으로 합니다. 이러한 언어 모델에는 더 파일 오픈 소스 데이터 세트에서 학습된 GPT-J, GPT-NeoX, Pythia 제품군이 포함됩니다. 최근의 많은 오픈 소스 언어 모델들은 이러한 노력을 바탕으로 계속해서 개발되고 있으며, 여기에는 Cerebras-GPT와 Dolly-2가 포함됩니다. StableLM은 더 파일에 구축된 새로운 실험 데이터 세트를 기반으로 학습되었지만, 콘텐츠가 1조 5천억 개에 달해 3배 더 큽니다. 데이터 세트에 대한 자세한 내용은 추후 공개할 예정입니다. 이 데이터 세트의 풍부함 덕분에 StableLM은 30억~70억 개의 매개변수라는 작은 크기에도 불구하고 대화 및 코딩 작업에서 놀라울 정도로 높은 성능을 제공합니다(이에 비해 GPT-3에는 1,750억 개의 매개변수가 있습니다). 이게 미래라고 봅니다.입출력 제한이 명백하고 느린 트랜스포머를 LLM에는 적합하지 않다고 생각합니다. RNN도 적합하지 않지만 최선이지 않을까? 써보려고 합니다. 혹시 써보신 분, 다른 모델들과 비교하면 성능은 어떤가요? Park Chansung ChatRWKV는 ChatGPT와 비슷하지만 RWKV(100% RNN) 언어 모델과 오픈 소스로 구동됩니다. ChatRWKV(4가지 주요 매개변수: R W K V에서 "RwaKuv"로 발음) 허깅페이스 그라디오 데모(14B ctx8192): https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio Raven(알파카 등에서 미세 조정된 7B) 데모: https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B RWKV pip 패키지: https://pypi.org/project/rwkv/(항상 최신 버전 및 업그레이드를 확인하시기 바랍니다) ChatRWKV v2 및 pip rwkv 패키지 업데이트(0.7.3): v2/convert_model.py를 사용하여 전략에 대한 모델을 변환하면 로딩 속도가 빨라지고 CPU RAM을 절약할 수 있습니다. 참고 ### RWKV_CUDA_ON은 CUDA 커널을 빌드합니다("pip install ninja" 먼저). Linux에서 빌드하는 방법: 다음을 설정하고 v2/chat.py를 실행합니다.export PATH=/usr/local/cuda/bin:$PATH Win에서 빌드하는 방법:VS2022 빌드 툴을 설치합니다(https://aka.ms/vs/17/release/vs_BuildTools.exe 에서 데스크톱 C++ 선택). CUDA 11.7을 재설치합니다(VC++ 익스텐션 설치). "x64 네이티브 툴 명령 프롬프트"에서 v2/chat.py를 실행합니다.  RWKV 디스코드: https://discord.gg/bDSBUMeFpc (함께 빌드합시다) RWKV LM: https://github.com/BlinkDL/RWKV-LM (설명, 미세 조정, 교육 등) 150줄로 된 RWKV(모델, 추론, 텍스트 생성): https://github.com/BlinkDL/ChatRWKV/blob/main/RWKV_in_150_lines.py ChatRWKV v2: "스트림" 및 "분할" 전략 및 INT8. 3G VRAM은 RWKV 14B를 실행하기에 충분합니다 :) https://github.com/BlinkDL/ChatRWKV/tree/main/v2 os.environ["RWKV_JIT_ON"] = '1' out, state = model.forward([187, 510, 1563, 310, 247], None) # 20B_tokenizer.json 사용 다음은 https://huggingface.co/BlinkDL/rwkv-4-raven/blob/main/RWKV-4-Raven-14B-v7-Eng-20230404-ctx4096.pth 의 동작입니다:  RWKV 챗봇을 구축할 때는 버그 방지를 위해 항상 상태에 해당하는 텍스트를 확인하시기 바랍니다. raw forward()를 직접 호출하지 마세요. 대신 상태에 해당하는 텍스트를 기록하는 함수에 넣으세요. 가장 좋은 채팅 형식은 다음과 같습니다(텍스트가 이 형식인지 확인하세요): 밥: xxxxxxxxxxxxxx\n\앤앨리스: xxxxxxxxxxx\n\n밥: xxxxxxxxxxxxxx\n\앤앨리스: 마지막 "Alice:" 뒤에 공백이 없어야 합니다. 생성 결과에는 처음에 공백이 생기므로 간단히 공백을 제거할 수 있습니다. https://pypi.org/project/rwkvstic/ pip 패키지(8비트 및 낮은 VRAM GPU용 오프로드 포함) https://github.com/saharNooby/rwkv.cpp rwkv.cpp(빠른 CPU 참조용) https://github.com/wfox4/WebChatRWKVv2 WebUI https://github.com/cryscan/eloise RWKV QQ 봇 알파카 스타일로 튜닝된 최신 "레이븐" 시리즈 RWKV 14B 및 7B 모델은 매우 훌륭합니다(거의 ChatGPT와 비슷하며 다자간 채팅도 잘합니다). 다운로드: https://huggingface.co/BlinkDL/rwkv-4-raven 이전 구형 모델 결과:        中文模型 中文使用教程:https://zhuanlan.zhihu.com/p/618011122 https://zhuanlan.zhihu.com/p/616351661 推荐UI:https://github.com/l15y/wenda 허밍버드 by Feather요청만 하면 모든 금융 데이터를 찾을 수 있습니다. 샘플 프롬프트 Tesla의 2015~2020년 대차 대조표를 보여주시겠습니까? 아마존이 지난 분기 실적을 상회했나요? 애널리스트들은 Snap의 주식에 대해 뭐라고 말하나요? 내부자들은 어떤 주식을 매수하고 있나요? 기본 사항: 48,000개 기업의 재무제표, 비교 가능한 재무, 비교 가능한 멀티플 및 수익 분석 센티멘트: 애널리스트 추정치 및 애널리스트 목표주가 시장 활동: 최근 내부자 활동 비율: 재무 비율(예: 마진, 자본 수익률 등), 성장률 및 세그먼트 분석 수익: 수익 콜 녹취록 및 요약 토론: 허밍버드에 투자 아이디어를 제시하고 질문과 피드백을 받아 분석을 구체화할 수 있습니다.  |
News ChatGPT, GenerativeAI and LLMs Timeline Green Light: NVIDIA Grace CPU Paves Fast Lane to Energy-Efficient Computing for Every Data Center RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens Announcement: https://www.together.xyz/blog/redpajama The Unintended Consequences of Censoring Digital Technology -- Evidence from Italy's ChatGPT Ban DeepSpeed Chat: Easy, Fast, and Affordable RLHF Training of ChatGPT-like Models at All Scales Research DINOv2: State-of-the-art computer vision models with self-supervised learning Meta에서 순수히 unsupervised learning 만을 활용한 방법론을 통해 unsupervised image feature learning을 진행하도록 학습한 DINO v2를 공개했습니다. 기존의 CLIP과 같은 방법은 hashtag 등 loose image-text pairing에 많이 의존했으나 해당 방법은 순수히 영상 정보만을 활용해서 Masked image modeling과 multiscale view를 분류하는 학습과 knowledge distillation을 혼합해서 학습을 진행합니다. 또한, 성능 고도화를 위해 기존의 ImageNet 등 데이터와 유사한 1억4천만 장 이상의 새로운 데이터셋을 구성하고 Transformer의 효율적 학습을 위한 custom kernel을 xFormers 라이브러리에 작성해 공개했습니다. 가장 큰 의의는 추가 fine-tuning 없이도 linear classifier 또는 kNN을 통한 분류에서도 SOTA와 유사한 성능을 낼 수 있기 때문에 많은 downstream task에서 동일한 모델을 활용할 수 있다는 점입니다. SpectFormer: Frequency and Attention is what you need in a Vision Transformer ArXiv: https://arxiv.org/abs/2304.06446 Other Interesting Research Generative Agents: Interactive Simulacra of Human Behavior Teaching Large Language Models to Self-Debug Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators OpenAssistant Conversations -- Democratizing Large Language Model Alignment Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models teddy_bear_guitar.mp4Reinforcement Learning from Passive Data via Latent Intentions Learning to Compress Prompts with Gist Tokens |
News
Conference 소식
Google Deepmind!!!
Microsoft Viva Copilot
Whisper의 엄청 빠른 inference 버전 on huggingface
NeurIPS 2023 Datasests and Benchmarks Track Review 와 AC를 모십니다
ArXiv
Is ChatGPT a Good Recommender? A Preliminary Study?
Longitudinal analysis of sentiment and emotion in news media headlines using automated labelling with Transformer language models
The text was updated successfully, but these errors were encountered: