2025-07-11 - GitHub Trend Repo

WebAgent for Information Seeking built by Tongyi Lab, Alibaba Group 이 프로젝트는 알리바바 그룹의 Tongyi Lab에서 개발한 WebAgent로, 정보 검색과 웹 탐색에 특화된 인공지능 에이전트입니다. 목표는 사용자가 복잡한 웹 기반 문제를 해결할 수 있도록 도우며, 자연어 처리와 정보 검색 기술을 활용하여 웹상에서 데이터를 수집, 분석하고 답변하는 기능을 제공합니다. 구조는 여러 개의 핵심 모델(WebSailor-3B, WebDancer-32B, WebWalkerQA 등)을 포함하며, 이들은 각각 높은 성능의 정보 검색, 자동화된 검색, 웹 내 탐색 및 질의응답을 수행합니다. 프로젝트는 사전 학습된 언어모델 기반의 에이전트 구조, 후속 훈련 절차, 강화 학습(듀폴과 DAPO 알고리즘 등)을 활용한 미세조정 방식을 특징으로 하며, 다양한 데이터셋과 벤치마크(BrowseComp, GAIA, WebWalkerQA)를 통해 성능을 검증합니다. 최근에는 WebSailor-72B 모델의 공개와 여러 성과 보고서, 데모 영상 공유가 이루어졌으며, 지속적으로 오픈소스와 연구 성과를 확장하는 중입니다. 기술 스택은 Python, 다양한 딥러닝 프레임워크, API와 CLI 기반 배포 도구를 포함하며, 연구 논문과 릴리즈 노트, 확장된 인력 채용 정보를 포함해 향후 발전 가능성과 오픈 엔비론에 대한 기대를 모으고 있습니다. ...

July 11, 2025 · 11 min

2025-07-10 - GitHub Trend Repo

MCP Toolbox for Databases 바로가기 이 프로젝트는 데이터베이스와 연동하여 AI 기반 작업을 돕는 오픈소스 MCP(Machine Connection Protocol) 서버입니다. 목적은 데이터베이스 관리와 활용을 보다 쉽고 안전하며 효율적으로 만들어, 개발자가 복잡성에 신경 쓰지 않고 데이터 작업에 집중할 수 있도록 지원하는 것입니다. 이 도구는 커넥션 풀링, 인증, 모니터링 등을 포함한 성능과 보안 향상 기능을 제공하며, 데이터 소스(PostgreSQL 등)와 연동됩니다. 구조는 크게 서버와 클라이언트 SDK로 나뉘며, 서버는 도구(toolset)와 소스(source)를 정의하는 YAML 구성 파일과 API를 통해 동작합니다. 클라이언트는 Python, JavaScript/TypeScript 등 다양한 언어용 SDK를 통해 서버와 연동하며, 도구와 데이터 소스를 로드해 데이터 쿼리, 자동화, 코드 생성 등에 활용됩니다. 또한, 이 프로젝트는 버전 관리를 하며, 1.0 이전 베타 단계에 있어 일부 기능은 변경될 수 있습니다. ...

July 10, 2025 · 12 min

2025-07-09 - GitHub Trend Repo

12-factor-agents 이 프로젝트는 신뢰할 수 있는 대규모 언어모델(LLM) 기반 애플리케이션을 구축하기 위한 12가지 핵심 원칙(요소)을 제시하는 가이드와 프레임워크입니다. 목적은 LLM을 활용한 제품 개발시 안정성, 확장성, 유지보수 용이성을 확보하는 것에 중점을 두고 있으며, 자연어를 도구 호출로 변환하거나 프로세스를 구조화하는 방법, 상태 통합, 제어 흐름 관리, 에이전트의 작고 집중된 설계 등을 포함하는 원칙들을 상세하게 설명합니다. 이 프로젝트는 각각의 원칙(팩터)이 가지는 핵심 개념과 구현 방법을 제공하고, 이를 통해 기존 애플리케이션에 모듈화된 개념들을 접목시켜 효율적인 AI 기능을 빠르게 제공하는 전략을 제안합니다. 구조는 12가지 핵심 원칙과 이들을 설명하는 문서, 예제 영상, 관련 리소스 링크 등으로 구성되어 있으며, 이는 API, 설계 패턴, 사례 연구 등을 포괄합니다. ...

July 9, 2025 · 10 min

2025-07-08 - GitHub Trend Repo

rustfs RustFS는 러스트(Rust) 언어로 개발된 고성능 분산 객체 저장소 소프트웨어입니다. 이 프로젝트의 주목적은 안전하고 빠른 분산형 객체 저장 시스템을 구축하는 것으로, S3 호환 API를 제공하여 기존 클라우드 및 온프레미스 환경과 쉽게 연동할 수 있게 설계되어 있습니다. 구조적으로는 분산 아키텍처를 갖추고 있으며, 직관적인 콘솔 인터페이스와 API를 통해 관리가 용이하도록 구성되어 있습니다. 주 사용 대상은 빅데이터, 인공지능, 데이터 레이크 등의 분야로서, 대용량 데이터 처리와 안전성을 중요시하는 기업 및 개발자들이 주 타겟입니다. 기술 스택은 Rust로 개발되었으며, Rust의 안전성 및 성능 강점을 적극 활용합니다. 최근 릴리즈나 변경 이력은 GitHub의 활동 기록과 함께 상세한 릴리즈 노트를 통해 확인할 수 있으며, 주기적 업데이트와 내구성 향상 작업이 지속되고 있습니다. 특징으로는 초고속 성능, 분산 아키텍처, 오픈소스 라이선스(아파치 2.0), 그리고 안전한 협업 환경을 제공하는 점이 있습니다. 사용 시 참고할 만한 사항은 공식 문서와 커뮤니티 활동이 활발하니, 문제 해결이나 기여를 원한다면 GitHub Discussions, Issues 등을 활용하는 것이 좋습니다. ...

July 8, 2025 · 8 min

2025-07-07 - GitHub Trend Repo

MediaCrawler 바로가기 MediaCrawler는 다양한 중국 내 주요 미디어 플랫폼(샤오홍슈, 틱톡, 쯔푸, B站, 웨이보, 투바이론, 지오허우 등)의 공개정보를 수집하는 강력한 크롤러 도구입니다. 이 프로젝트의 주된 목적은 사용자와 연구자가 네트워크 데이터를 학습하고 분석할 수 있도록 도와주는 것으로, 크롤링 기능, 데이터 저장, 로그인 세션 유지, IP 프록시, 댓글 분석 등 다양한 기능을 제공합니다. 프로젝트는 Playwright 브라우저 자동화 프레임워크 기반으로 개발되었으며, JS 표현식을 활용하여 암호화된 API 시그니처를 역공학하지 않고도 손쉽게 크롤러를 운영할 수 있습니다. 구조는 주로 API 호출, CLI 명령어, 데이터 저장 모듈로 구성되어 있으며, MySQL, CSV, JSON 파일로 데이터를 저장할 수 있습니다. ...

July 7, 2025 · 8 min

2025-07-06 - GitHub Trend Repo

MediaCrawler MediaCrawler는 다양한 자가미디어 플랫폼(红书, 抖音, 快手, B站, 微博, 贴吧, 知乎 등)의 공개 데이터를 크롤링하는 강력한 데이터 수집 도구입니다. 이 프로젝트의 목표는 여러 플랫폼의 데이터(게시물, 댓글, 프로필 등)를 자동으로 수집하여 연구와 학습에 활용하는 것입니다. 핵심 기능으로는 키워드 검색, 특정 게시물 ID 기반 크롤링, 댓글 수집, 댓글 워드 클라우드 생성, 로그인 세션 유지, IP 프록시 관리 등의 다양한 기능을 제공하며, Playwright를 활용한 브라우저 자동화 기술을 기반으로 복잡한 역공학 또는 암호화 우회없이 데이터를 수집할 수 있습니다. 구조는 Python 기반으로, CLI 명령어를 통해 실행하며 MySQL, CSV, JSON 저장 방식을 지원합니다. 최근 버전에서는 로그인 상태 유지, 다중 계정 지원, IP 프록시 풀, 로드맵 확장(예: AI 에이전트 개발), 그리고 Playwright를 통한 로컬 브라우저 연결 방식이 포함되어 사용자 편의성과 확장성을 높였습니다. 참고로 MediaCrawlerPro 버전은 차별화된 아키텍처와 더 많은 고급 기능이 포함된 유료/프로 버전으로 개발되어 있으며, Github 페이지 및 공식 문서에서 상세 정보를 확인할 수 있습니다. 사용 기술로는 Python, Playwright, Node.js, Shell, MySQL, 그리고 다양한 웹 크롤링 및 자동화 관련 라이브러리를 활용하고 있으며, 주의사항으로는 법률 준수와 비상업적 학습 목적으로만 활용해야 함을 강조하고 있습니다. 개발자들은 활발한 커뮤니티 지원과 공식 문서, 튜토리얼, 관련 프로젝트들(예: 内网穿透기술, sms 포워더 등)과 연계하여 지속적 발전 및 지원을 하고 있습니다. ...

July 6, 2025 · 9 min

2025-07-05 - GitHub Trend Repo

MediaCrawler https://github.com/NanmiCoder/MediaCrawler 바로가기 MediaCrawler는 여러 대표적인 自媒体 플랫폼(소셜 미디어)에서 공개 정보를 크롤링할 수 있는 강력한 다중 플랫폼 데이터 수집 도구입니다. 주요 목적은 다양한 플랫폼(소红书, 抖音, 快手, B站, 微博, 贴吧, 知乎)의 공개 게시글, 댓글, 사용자 정보 등을 수집하여 연구와 학습 목적으로 활용하는 데 있습니다. 이 프로젝트는 Playwright 기반의 브라우저 자동화 기술, JS 표현식을 활용한 서명签名参数 추출 방식을 사용하며, 별도의 JS 역공학 과정이 필요하지 않아 기술적 난이도를 낮춘 것이 특징입니다. 구조는 크롤러 핵심 모듈, 플랫폼별 크롤링 설정 및 브라우저 환경관리, 데이터 저장 모듈 (MySQL, CSV, JSON)로 구성되어 있으며, 크롤러는 검색, 상세,评论등 유스케이스를 지원하고, 다중 계정과 IP池, 로그인 상태 캐시 기능도 제공하여 대량 데이터 수집에 적합하도록 설계되었습니다. 최신 릴리즈는 여러 기능 개선과架构优化, 断点续爬, 多账号+IP池 지원, Linux 완전 지원 등으로 꾸준히 업데이트 중입니다. 또한 유료版인 MediaCrawlerPro는 보다 확장된 기능과 모듈 설계로, 기업이나 연구자가 대규모 데이터 수집에 활용할 수 있도록 고도화되어 있습니다. 기술스택은 Python, Playwright, Node.js, 데이터베이스(MySQL), 그리고 다양한 자동화 및 스크래핑 기법을 활용하며, 크로스 플랫폼 지원 및 성능 향상에 주력하고 있습니다. 공식 문서와 커뮤니티 지원을 통해 학습과 개발이 가능하며, 법적・윤리적 준수 유의사항도 안내하고 있습니다. ...

July 5, 2025 · 14 min

2025-07-04 - GitHub Trend Repo

MediaCrawler MediaCrawler는 다중 플랫폼의 자가 미디어 데이터 크롤러로, 샤오홍수(小红书), 더우인(抖音), 쾀셔(快手), 비디오사이트(B站), 웨이보(微博), 바닥글(贴吧), 지우허(知乎) 등 주요 미디어 플랫폼의 공개 정보를 수집하는 강력한 오픈소스 툴입니다. 이 프로젝트는 Playwright 기반의 브라우저 자동화 기술을 활용하여 로그인 유지, 키워드 검색, 특정 게시글 ID로 데이터 수집, 댓글/댓글분석 등 다양한 기능을 제공합니다. 구조는 플러그인 형식으로 설계돼 있으며, API, CLI, 데이터 저장(MySQL, CSV, JSON) 등의 구성요소를 포함합니다. 대상은 연구자, 개발자, 데이터 분석가 등으로, 플랫폼별 데이터 수집, 인사이트 추출, 텍스트 분석, 시각화 등에 활용됩니다. 최신 릴리즈는 유지보수와 기능 확장에 집중되었으며, 사용자들이 쉽게 환경 구축하고 다양한 기능을 수행할 수 있도록 자세한 문서와 튜토리얼, 커뮤니티 지원이 제공됩니다. 기술 스택에는 Python, Node.js, Playwright, 데이터베이스(MySQL), 프로그래밍 원칙(클린 코드, 모듈화), 환경관리(uv, virtualenv)가 포함되며, Pro 버전은 확장 기능, 더 나은 설계, 차별화된 성능을 자랑합니다. 참고 링크와 공식 문서 역시 활발히 운영돼 있어, 학습과 연구 목적으로 적합하며, 법적 책임은 사용자에게 있으니 사용할 때 주의가 필요합니다. ...

July 4, 2025 · 10 min

2025-07-03 - GitHub Trend Repo

generative-ai-for-beginners https://github.com/microsoft/generative-ai-for-beginners 바로가기 이 프로젝트는 초보자를 위한 생성형 인공지능(GAI) 학습 자료와 실습용 코드를 제공하는 교육용 커리큘럼입니다. 총 21개의 레슨으로 구성되어 있으며, AI 개념 이해부터 실습 프로젝트까지 포괄적으로 다루어 집니다. 주요 목적은 AI 개발에 대한 기초 이해와 실무 적용 능력 배양입니다. 제공하는 기능으로는 Azure OpenAI API, OpenAI API, 벡터 데이터베이스, 오픈소스 모델 활용, 챗봇 및 이미지 생성 애플리케이션 개발 등 다양한 실습 예제와 강의 영상이 포함되어 있습니다. 구조는 각 레슨별로 README 문서, 동영상, 코드 샘플, 추가 학습 자료 링크로 구성되어 있으며, Python과 TypeScript를 지원하는 실습 코드 예제와 함께 AI 설계, 보안, UX 설계, AI 모델 파인튜닝 등 폭넓은 주제를 다룹니다. 대상은 AI에 관심 있는 초보자부터 개발자, 학생 등이며, 이들이 실습과 학습을 통해 AI 프로젝트를 시작하는 데 도움을 주도록 설계되었습니다. 기술 스택으로는 Python, TypeScript, Azure OpenAI, Hugging Face 오픈소스 모델, Vector 데이터베이스 등이 사용됩니다. 최신 릴리즈 및 업데이트는 주기적으로 GitHub Actions를 통해 자동으로 업로드되며, 일부 강좌는 곧 영상이 제공될 예정입니다. 참고로, AI 윤리와 책임 있는 AI 사용, 보안, 모델 미세조정 등 실무에 필요한 핵심 주제를 포괄합니다. 이 자료는 GitHub 저장소로 공개되어 있어 누구든 포크하고 자유롭게 개선하거나 연계 활용할 수 있으며, 커뮤니티를 통한 지원과 피드백도 활성화되어 있습니다. ...

July 3, 2025 · 5 min

2025-07-02 - GitHub Trend Repo

generative-ai-for-beginners GitHub 바로가기 이 프로젝트는 초보자를 위한 종합적인 머신러닝 및 생성적 AI 입문 자료로, Microsoft Cloud Advocates가 제공하는 21개의 강의를 통해 생성적 AI 애플리케이션 개발에 필요한 핵심 개념과 실습 내용을 제공합니다. 학습자는 AI의 기본 개념, 대형 언어 모델(LLM)의 작동 원리, 모델 선택과 활용, 프롬프트 엔지니어링, 책임감 있는 AI 사용법, 그리고 실제 다양한 애플리케이션 구축 방법(텍스트, 채팅, 검색, 이미지 생성, 낮은 코드 활용, 외부 시스템과의 연동, 보안 등)을 배울 수 있습니다. 이 과정은 Python과 TypeScript를 활용한 실습 예제와 함께, Azure OpenAI, OpenAI API, Hugging Face 등 다양한 기술 스택을 지원하며, 각 강의는 비디오, 상세 설명, 코드 샘플 링크 등으로 구성되어 있어 초보자가 쉽게 따라할 수 있도록 설계되었습니다. 또한, GitHub 저장소를 포크하거나 관련 리소스에 접속하여 학습을 확장하고, 커뮤니티 지원과 피드백을 받을 수 있는 링크도 제공됩니다. 최근에는 다양한 언어 번역 지원과 지속적인 업데이트를 통해 최신 정보를 학습자에게 전달하며, AI 및 생성적 AI 분야에 관심 있는 학생, 개발자, 스타트업 기업 등에 적합한 교육 자료입니다. ...

July 2, 2025 · 12 min