generative-ai
이 프로젝트는 구글 클라우드의 ‘Generative AI on Google Cloud’ 활용을 위한 리포지토리로, 최신 인공지능 모델인 Gemini 3.1 Pro를 포함한 다양한 생성 AI 워크플로우 데모, 노트북, 코드 샘플, 앱 등을 제공하여 개발자가 손쉽게 생성 AI 기술을 활용할 수 있도록 돕는 목적으로 만들어졌습니다. 주요 기능은 텍스트, 이미지, 오디오 등 다양한 유형의 생성 AI 기능을 개발하고 관리하는 데 초점이 맞춰져 있으며, Vertex AI 플랫폼과 연동하여 사용할 수 있는 구조로 구성되어 있습니다. 구성요소로는 Gemini 모델 사용 예제, 검색 및 Grounding 관련 샘플, Imagen 기반 이미지 생성, Chirp 기반 음성 솔루션, 환경 세팅 방법 안내, 그리고 관련 학습 자료를 포함한 여러 폴더들로 이루어져 있습니다. 대상 사용자는 인공지능 개발자, 연구원, 기업 담당자들이며, 구글 클라우드 환경에서 최신 생성 AI 모델과 솔루션을 빠르게 도입 및 확장하려는 목적으로 활용됩니다. 기술 스택에는 Google Cloud Vertex AI 서비스, Python SDK, 노트북 기반 개발 환경, 다양한 AI 모델 API가 포함됩니다. 최근 릴리즈 또는 업데이트로는 Gemini 3.1 Pro 모델이 공식 출시됐으며, 관련 노트북과 데모 자료가 공개되어 있습니다. 참고로, 이 프로젝트는 구글에서 공식 지원하는 제품은 아니며, 데모 목적으로 제공된 코드임을 유념하시기 바랍니다.
🦞 OpenClaw — Personal AI Assistant
OpenClaw는 개인 사용자용 AI 비서 소프트웨어로, 사용자가 이미 사용하는 다양한 메신저 채널(WhatsApp, Telegram, Slack, Discord, 등)을 통해 채팅 및 명령을 받고 응답할 수 있도록 설계된 오픈소스 프로젝트입니다. 이 프로젝트는 사용자의 디바이스에서 로컬로 실행되며 빠른 반응속도와 개인 정보 보호를 우선시하는 것이 목적입니다. 주요 기능은 여러 채널 통합, 실시간 음성인식 및 Wake Word 지원, Canvas 기반 시각적 작업 공간 제공, 다양한 도구와 플러그인(스크린샷, 명령어 실행, 미디어 처리 등)의 통합, 그리고 각종 디바이스와 플랫폼(macOS, iOS, Android)과의 연동입니다. 구성요소로는 Gateway 제어 플레인, 다중 채널 핸들러, Agent 및 Session 관리, Skill Registry, 다양한 노드 및 앱(캔버스, 카메라, 마이크 제어 등), 그리고 사용자 인터페이스(Web, macOS, 모바일 앱)로 이루어져 있으며, 이는 API, CLI, WebSocket, TTS/ASR, OAuth, Tailscale 등 최신 기술 스택을 활용하여 구현되어 있습니다. 최근 주요 변경사항으로는 Onboarding Wizard 도입, 다채널 메시징 및 음성 Wake 기능 강화, Tailscale 연동 기능 확장, 그리고 보안 관련 정책 개선이 있어 2023년 기준 여러 릴리즈 및 업데이트가 이루어졌습니다.
MiroFish
MiroFish는 다양한 실세계 데이터를 기반으로 고도로 정교한 군집 지능 엔진을 제공하는 AI 예측엔진입니다. 인공지능과 다중 에이전트 기술을 활용하여 복잡한 사회적, 경제적, 정치적 현상 등을 시뮬레이션하고 예측하는 것을 목적으로 하고 있습니다. 주요 기능으로는 현실 세계의 정보(뉴스, 정책, 금융 신호 등)를 수집하여 가상 디지털 세계를 만들어내고, 수많은 독립적 인격체들이 이 공간에서 상호작용하며 사회적 진화 과정을 보여줍니다. 사용자는 자연어로Prediction 요청을 입력하면 상세한 예측 보고서와 상호작용 가능한 디지털 트윈 환경을 제공받을 수 있습니다. 구조적으로는 그래프 기반 데이터 수집 및 RAG 기술이 적용된 지식 그래프 구축, 멀티에이전트 환경 구축, 시뮬레이션, 보고서 생성, 인터랙티브 대화 시스템 등으로 구성되어 있습니다. 기술 스택에는 Node.js, Python 3.11 내지 3.12, Docker, 다양한 API 연동 기술이 사용되며, AI 모델로는 알리바이 플랫폼 qwen-plus와 Zep Cloud 서비스 API를 지원합니다. 프로젝트는 GitHub 저장소에서 최신 업데이트와 상세 배포, 사용 가이드, 데모 영상, 시스템 스크린샷 등을 제공하며, 최근에는 다양한 예측 시나리오와 정교한 시뮬레이션 성능을 지속적으로 향상시키고 있습니다. 참고로, 이 프로젝트는 오픈소스 기반이며, 사용자 맞춤형 예측 및 디지털 트윈 환경 구축이 가능합니다. 사용 시에는 사전 환경 설정과 API 키 등록, 의존성 설치, Docker 또는 직접 배포를 통해 서비스 구성 후 활용할 수 있습니다. 또한, 활발한 커뮤니티와 연구팀 지원을 받아 다양한 응용 분야에 적합합니다.
nanochat
nanochat은 매우 간단하고 실험적인 대형 언어 모델(LLM) 훈련용 프레임워크로, 단일 GPU 노드에서 실행되도록 설계된 최소한의 코드로 구성되어 있습니다. 이 프로젝트의 목적은 저렴한 비용으로 강력한 GPT-2 수준의 언어 모델을 훈련시키고, 사람과 유사한 채팅 인터페이스를 제공하는 것입니다. nanochat은 토크나이제이션, 사전 훈련, 미세 조정, 평가, 추론, 채팅 인터페이스 등 모든 주요 LLM 단계들을 포괄하며, hyperparameter는 모델의 깊이(–depth) 하나의 조절변수로 자동으로 최적화됩니다. 주요 기능으로는 GPT-2와 유사한 성능의 언어 모델 훈련 및 온/오프라인 채팅 UI 제공, 훈련 시간 목표를 달성하기 위한 ‘GPT-2 속도 달인’ 랭킹 시스템도 포함되어 있습니다. 기술 스택으로는 주로 파이토치(PyTorch)를 사용하며, 모델 가중치는 FP32로 저장되고, 연산 수행 시 환경설정에 따라 BF16 또는 FP32를 선택할 수 있습니다. 사용자 가이드에는 GPT-2 재생산 방법, 커스터마이징, CPU/Apple Silicon 또는 GPU에서의 실행 방법, 정밀도 관리 방안 등이 상세히 설명되어 있습니다. 개발 관련 이력으로는 GPT-2 수준의 훈련 속도를 목표로 하는 ‘시간 기반 리더보드’와 스케일링 법칙 실험 스크립트, 미니시리즈 훈련 스크립트 등이 포함되어 있으며, 최근에는 훈련 속도 향상과 관련한 실험을 지속하고 있습니다. 프로젝트는 오픈소스이며, MIT 라이선스로 배포되어 있어 누구나 자유롭게 포크하고 활용할 수 있습니다. 참고 링크와 문서, 커뮤니티 토론 채널, 기여 가이드 등도 제공되어 있습니다.
BettaFish
BettaFish 프로젝트는 데이터 수집, 분석, 예측 및 보고서 생성 등을 통합하는 지능형 데이터 분석 플랫폼입니다. 주목적은 대량의 온라인 미디어와 소셜 네트워크 데이터를 실시간으로 수집하여, 사용자 요구에 맞춘 심층 분석과 미래 예측을 제공하는 데 있습니다. 핵심 기능으로는 국내외 뉴스 세분화 검색, 멀티모달 콘텐츠 해석(영상·이미지·구조화 데이터), 비공개 데이터베이스 심층 탐사, 자동 리포트 생성과 시각화 등이 포함됩니다. 구조는 크게 QueryEngine(검색 엔진), MediaEngine(멀티모달 콘텐츠 분석), InsightEngine(사내 데이터 분석), ReportEngine(보고서 생성), ForumEngine(Agent 협력 시스템), 웹 기반 인터페이스 및 크롤러 시스템으로 이루어져 있으며, 각 모듈은 Python로 개발되고 Docker로 배포 가능합니다. 기술 스택으로는 Python, PostgreSQL 또는 MySQL, OpenAI API, 멀티모달 인공지능 모델(영상·이미지·텍스트), Flask 웹 서버, Playwright 브라우저 드라이버 등을 활용합니다. 최근에는 MiroFish라는 전망 예측 엔진이 출시되어 데이터를 통합 분석하여 미래 동향을 예측하는 기능도 강화되었습니다. 대상 이용자는 데이터 분석 전문가, 연구기관, 기업 마케팅·리서치 부서, 정책 입안자 등이 있으며, 언론사 리포트, 기업 시장 분석, 공공 정책 연구 등에 활용됩니다. 프로젝트는 2023년 이후 활발히 업데이트되고 있으며, 멀티에이전트 협업, 실시간 데이터 수집, 고도화된 멀티모달 분석, 공개와 사유 데이터 통합 등 다양한 특징이 있습니다.
Hermes Agent ⚕
Hermes Agent는 Nous Research가 개발한 자기개선 AI 에이전트입니다. 이 프로젝트의 목적은 경험을 바탕으로 스킬을 생성하고 개선하며, 지속적으로 학습하는 인공지능 에이전트를 만드는 것입니다. 사용자는 클라우드, VPS, 또는 서버리스 환경에서 저렴하게 구동할 수 있으며, 텔레그램, 디스코드, 슬랙, 왓츠앱, 시그널 등 다양한 메시징 플랫폼에서 взаимодейств할 수 있습니다. 핵심 기능에는 대화형 터미널 인터페이스, 메시지 게이트웨이 지원, 작업 자동화 스케줄러, 여러 플랫폼 간 통합, 도구 및 스킬 시스템, 메모리 및 사용자 프로필 관리, 다양한 모델과의 호환이 포함됩니다. 기술 스택은 Python, Node.js, 여러 API 및 클라우드 인프라 지원으로, OpenRouter, OpenAI, Kimi/Moonshot 등 모델 선택이 가능하며, 다양한 플랫폼 연동이 쉽도록 설계되어 있습니다. 최근 릴리즈와 변경 사항에 대한 상세 정보는 공식 문서 및 GitHub의 릴리즈 노트에서 확인할 수 있으며, 커뮤니티와 기여 가이드라인도 활발히 운영되고 있습니다. 전반적으로, 이 프로젝트는 AI 개발자, 연구자, 자동화 도구 사용자에게 적합하며, 유연하고 확장 가능한 인공지능 에이전트 구축에 초점을 둡니다.
Page Agent
Page Agent는 웹페이지 내 자연어를 이용해 웹 인터페이스를 제어하는 GUI 에이전트입니다. 목표는 별도 브라우저 확장이나 헤드리스 브라우저 없이, 순수 자바스크립트 내에서 DOM 조작과 웹 자동화를 가능케 하는 것입니다. 자연어 명령을 통해 로그인 버튼 클릭, 폼 작성 등 다양한 웹 상의 작업 수행이 가능합니다. 이 프로젝트는 TypeScript로 개발되었으며, 간단한 한줄 코드 통합과 API를 활용한 프로그램 제어를 지원합니다. 구성요소는 in-page 자바스크립트 SDK와 선택적 Chrome 확장 기능이며, 멀티페이지 작업 또는 탭 간 제어도 가능합니다. 현재 무료 데모 API와 npm 패키지로 배포중이며, GitHub에서 소스코드와 기여 가이드, 라이선스 정보를 확인할 수 있습니다. 주요 대상은 웹 애플리케이션 개발자, QA, 자동화 전문가이며, 자연어 명령 기반의 웹 자동화와 접근성 향상을 목적으로 이용됩니다.
Claude Code Skills & Plugins
이 프로젝트는 Claude Code, OpenAI Codex, OpenClaw와 연동 가능한 170개 이상의 생산준비된 기술과 플러그인 모음을 제공하는 오픈소스 라이브러리입니다. 각 기술은 도메인별 Instruction 세트(플러그인), Python CLI 도구, 문서 등을 포함하며, 엔지니어링, 제품 개발, 마케팅, 규제 준수, 경영 등 다양한 분야를 포괄합니다. 목표는 AI가 특정 역할 전문가 수준의 역량을 갖추도록 돕는 것입니다. 기술셋에는 명령어 세트, 설치 방법, 상세 설명, 예제들이 포함되어 있으며, 기술 스택은 Python(Dependency-free CLI), 협업 도구, 플랫폼 플러그인 지원을 지원합니다. 최근 2023년 중반 이후 25개 이상의 고급 기술이 추가되었고, 기존 기술 품질 향상 및 테스트, 문서화, 보안 감사 도구가 도입되었습니다. 오픈소스 기여 환영하며, 다양한 분야 확장과 개선 활동이 진행 중입니다.
Win11Debloat
Win11Debloat는 Windows 11 시스템을 빠르게 정리하고 맞춤화할 수 있는 PowerShell 스크립트입니다. 주요 목적은 불필요한 앱(인스톨 번들 및 번들 앱), 원하지 않는 인터페이스 요소, 개인 정보 보호 관련 기능들을 빠르게 제거 또는 비활성화하는 것에 있으며, 시스템 최적화와 사용성 향상에 중점을 둡니다. 기능으로는 앱 제거, 개인 정보 보호 설정 비활성화, 인터페이스 간소화, Windows 업데이트 정책 변경, AI 기능 비활성화, 시작 메뉴 및 작업표시줄 커스터마이징 등이 포함되어 있으며, 시스템에 PowerShell로 구성되어 있습니다. 사용 방법은 명령어 또는 스크립트 실행이며, 최신 릴리즈는 GitHub에서 확인 가능하고, 변경사항은 버그 수정 및 기능 개선 중심입니다. 무단 변경 및 위험성이 있으니 사용 시 주의가 필요하며, 기여는 오픈소스로 누구나 가능하고, 라이선스는 MIT입니다.
notebooklm-py
notebooklm-py는 구글의 NotebookLM 기능을 프로그래밍으로 활용할 수 있는 비공식 파이썬 API와 에이전트 기술 제공 프로젝트입니다. 이를 통해 사용자들은 웹 UI 외 기능을 Python, CLI, AI 에이전트(Claude Code, Codex 등) 통해 이용 가능하며, 연구, 프로토타입, 개인 프로젝트에 적합합니다. 주요 기능은 노트북 생성/관리, 소스 데이터 임포트(웹, PDFs, 구글드라이브 등), 질문/대화, 멀티미디어 콘텐츠 생성(오디오, 비디오, 슬라이드, 인포그래픽 등), 생성물 다운로드 및 내보내기입니다. 핵심은 Python 기반으로, Async I/O, 내부 미공개 API 활용, 다양한 미디어 처리 라이브러리 지원하며 Windows, macOS, Linux를 지원합니다. 공식 API는 아니지만 적극적 커뮤니티와 업데이트가 이루어지고 있습니다.
전체 내용은 오늘 날짜(2026-03-10)에 맞춰 정리된 GitHub 트렌드 프로젝트 리스트입니다.