MediaCrawler
MediaCrawler는 다양한 자가미디어 플랫폼(红书, 抖音, 快手, B站, 微博, 贴吧, 知乎 등)의 공개 데이터를 크롤링하는 강력한 데이터 수집 도구입니다. 이 프로젝트의 목표는 여러 플랫폼의 데이터(게시물, 댓글, 프로필 등)를 자동으로 수집하여 연구와 학습에 활용하는 것입니다. 핵심 기능으로는 키워드 검색, 특정 게시물 ID 기반 크롤링, 댓글 수집, 댓글 워드 클라우드 생성, 로그인 세션 유지, IP 프록시 관리 등의 다양한 기능을 제공하며, Playwright를 활용한 브라우저 자동화 기술을 기반으로 복잡한 역공학 또는 암호화 우회없이 데이터를 수집할 수 있습니다. 구조는 Python 기반으로, CLI 명령어를 통해 실행하며 MySQL, CSV, JSON 저장 방식을 지원합니다. 최근 버전에서는 로그인 상태 유지, 다중 계정 지원, IP 프록시 풀, 로드맵 확장(예: AI 에이전트 개발), 그리고 Playwright를 통한 로컬 브라우저 연결 방식이 포함되어 사용자 편의성과 확장성을 높였습니다. 참고로 MediaCrawlerPro 버전은 차별화된 아키텍처와 더 많은 고급 기능이 포함된 유료/프로 버전으로 개발되어 있으며, Github 페이지 및 공식 문서에서 상세 정보를 확인할 수 있습니다. 사용 기술로는 Python, Playwright, Node.js, Shell, MySQL, 그리고 다양한 웹 크롤링 및 자동화 관련 라이브러리를 활용하고 있으며, 주의사항으로는 법률 준수와 비상업적 학습 목적으로만 활용해야 함을 강조하고 있습니다. 개발자들은 활발한 커뮤니티 지원과 공식 문서, 튜토리얼, 관련 프로젝트들(예: 内网穿透기술, sms 포워더 등)과 연계하여 지속적 발전 및 지원을 하고 있습니다.
rustfs
RustFS는 러스트로 개발된 고성능 분산 객체 저장소 소프트웨어입니다. 이 프로젝트는 빠른 데이터 처리와 안전성을 강조하며, 대규모 데이터 저장, 데이터 레이크, 인공지능(AI), 빅데이터 워크로드에 적합하도록 설계되었습니다. Rust 기반으로 개발되어 속도와 안전성을 동시에 확보하며, 오픈소스 라이선스인 Apache 2.0 하에 배포되어 커뮤니티 참여와 투명성을 높이고 있습니다.
주요 기능에는 고성능 처리, 분산 아키텍처, S3 호환 API 지원, 데이터 레이크 지원 등이 포함됩니다. Rust 언어의 강점인 안전성과 빠른 속도를 활용하며, 개발자는 쉽게 배포하고 관리할 수 있도록 간단한 설계와 사용자 친화적인 인터페이스를 제공하고 있습니다.
구성 요소로는 S3 호환 API와 콘솔 인터페이스가 있으며, 사용자는 웹 브라우저를 통해 콘솔에 접속하거나 S3 API를 통해 저장소와 상호작용할 수 있습니다. 최근 릴리즈와 관련된 구체적인 변경내역은 공개 문서에 명시되지 않았으나, CI/CD 자동화와 도커 이미지 빌드 과정이 지속적으로 유지되고 있으며 기술적 업데이트가 이루어지고 있는 것으로 보입니다. 이 프로젝트는 러스트 기반이기 때문에 서버의 안정성과 보안이 강화되며, 국내외 클라우드 서비스와의 호환성도 지원됩니다. 또한, 개발과 운영의 투명성을 위해 다양한 커뮤니티 자료와 공식 문서를 제공하며, 문제 또는 기능 개선이 필요한 경우 GitHub 이슈와 Discussions를 통해 참여할 수 있습니다. 웹 기반 콘솔, Docker 설치, 간편 설치 스크립트 등을 통해 빠르게 시작할 수 있으며, 배포와 사용에 있어서도 사용자 친화적인 환경을 제공하는 것을 목표로 하고 있습니다.
Ladybird
Ladybird는 완전 독립적인 웹 브라우저로, 웹 표준을 기반으로 하는 새로운 엔진을 사용하는 프로젝트입니다. 이 브라우저는 현대 웹 환경에 맞춘 기능을 제공하는 것을 목표로 하며, 여러 프로세스 구조를 통해 안정성과 보안을 강화하고 있습니다. 현재 개발 초기에 있으며, 개발자나 기여자들이 사용할 수 있도록 설계된 상태입니다.
이 프로젝트는 WebKit 기반 엔진인 LibWeb, JavaScript 엔진인 LibJS, WebAssembly 지원, HTTP/HTTPS 통신, 2D 그래픽 처리, 국제화 지원 및 미디어 재생 기능 등을 포함하는 다양한 핵심 라이브러리로 구성되어 있습니다. 각 탭은 별개의 샌드박스 환경에서 작동하며, 네트워크와 이미지 디코딩도 별도 프로세스에서 수행되어 보안성을 높이고 있습니다. 빌드 방법은 GitHub의 문서 내 build instructions를 참고하며, Linux, macOS, Windows(WSL2 포함) 등 다양한 운영체제에서 실행 가능합니다. 개발 참여자는 Discord 채널과 기여 가이드라인을 통해 소통할 수 있으며, 중요한 정책과 이슈 처리 기준도 명확히 제시되어 있습니다. 프로젝트는 아직 pre-alpha 단계이기 때문에 사용 시 주의가 필요하며, 개발자와 기여자 중심의 프로젝트입니다. 라이선스는 2조항 BSD 라이선스를 따르고 있습니다.
Happy-LLM
Happy-LLM은 Datawhale에서 개발한 오픈소스 대형 언어모델(LLM) 학습 및 이해를 위한 시스템적 튜토리얼 프로젝트입니다. 이 프로젝트의 목적은 대형 언어모델의 원리와 훈련 과정을 깊이 이해하고 직접 구현하는 것을 지원하는 것입니다. 주요 기능으로는 자연어처리(NLP)의 기초 개념 설명, Transformer 구조와 주의 메커니즘 해설, 사전 학습 언어모델(PLM)과 대표적 LLM의 구조 비교, 그리고 실제 LLaMA2와 같은 모델 구축과 훈련 실습, 최신 LLM 훈련 프레임워크 활용, RAG, 에이전트 등 최신 응용 사례까지 포함되어 있습니다. 구조적으로는 이론 강의, 실습 코드, 훈련 과정 안내, 모델 다운로드 링크, PDF 교재 자료 등으로 구성되어 있으며, Python과 PyTorch를 기반으로 한 딥러닝 기술들이 활용됩니다. 대상은 대학생, 연구자, AI 및 LLM 입문자부터 실무자까지 폭넓으며, 이론 학습과 실전 구현을 함께 병행할 수 있도록 설계되어 있습니다. 최근 업데이트로는 215M 크기의 사전학습 및 미세조정 버전 모델이 ModelScope와 공식 홈페이지를 통해 공개되었으며, PDF 교재도 무료로 배포되고 있습니다. 본 프로젝트는 오픈소스 협업과 기여를 환영하며, 문제 제기, 개선 아이디어, 코드 기여 등 다양한 방식으로 참여 가능합니다. 또한, 원활한 학습을 위해 딥러닝, NLP, Transformer, LLM 관련 선행 지식을 권장하고 있습니다. 이 프로젝트는 CC BY-NC-SA 4.0 라이선스로 배포되어 있어, 비상업적 목적으로 자유롭게 활용 가능합니다.
ciencia-da-computacao
이 프로젝트는 브라질리언 오픈소스 대학인 Universidade Brasileira Livre(UBL)가 제공하는 독학 학습용 컴퓨터 과학 교육 과정입니다. 이 목표는 무료 온라인 자료와 포르투갈어를 활용하여 기초부터 고급 내용까지 포괄하는 종합적인 컴퓨터 공학 교육을 제공하는 것입니다. 이 과정은 이론적인 기초 개념과 구조적 설계, 실습 활동, 자료 읽기 등을 포함하며, 독립 학습자가 자신의 속도와 일정에 맞춰 학습할 수 있도록 설계되어 있습니다. 이 프로젝트는 강의와 참고 도서, 연습 문제, 실습 프로젝트로 구성된 여러 학습 단계로 나누어져 있으며, 각각의 단계는 유튜브 강의, 온라인 강좌, 추천 도서 리스트, 선행 학습 조건 등을 구체적으로 제시합니다. 구조적으로, 주요 자료들은 깃허브 리포지토리에서 정리되어 있으며, 커뮤니티 활동을 위한 디스코드 서버, 이슈 트래킹, 기여 지침 등이 포함되어 있습니다. 기술 스택은 주로 온라인 강의, GitHub 플랫폼, 버전 관리 도구, 오픈소스 강의 자료 등을 활용하며, 최신 업데이트는 지속적인 콘텐츠 추가와 구조적 개선이 이루어지고 있습니다. 학습 콘텐츠는 브라질 내 다양한 대학 커리큘럼 참고 및 오픈소스 자료를 활용하여 신뢰성을 확보하며, 학생들이 자신의 진도를 증명할 수 있는 포트폴리오 형식의 활동 공유도 권장됩니다. 이 교육 과정은 기술적인 목적으로 뿐만 아니라, 기초 개념을 튼튼히 하고 학습 습관을 기르는 데 중점을 두고 있으며, 커뮤니티와 협력하여 발전시키기 위해 노력하고 있습니다. 특이 사항으로, 공식 깃허브 문서와 기여 가이드, 도움 요청, 커뮤니티 링크, 최신 소식 등이 제공되어 자율적이고 지속 가능한 학습 환경 조성을 지향합니다.
Toutatis
Toutatis는 인스타그램 계정에서 이메일, 전화번호 등 다양한 정보를 추출하는 도구입니다. 이 프로젝트의 목적은 인스타그램 사용자 계정에 관한 공개 정보를 수집하고 정리하는 것으로, 개인 정보 조사 및 분석 용도로 활용 가능합니다. 주요 기능으로는 사용자 이름이나 인스타그램 ID를 기반으로 정보를 찾아내고 해당 계정의 상세 정보를 수집하는 것이 포함됩니다. 구조적으로는 명령줄 인터페이스(CLI)를 통해 입력받는 형태이며, 사용자는 Python 3 환경에서 pip 설치 또는 GitHub에서 클론 후 설치하여 사용할 수 있습니다. 사용 대상은 마케팅 전문가, 조사 연구원, 보안 분석가 등으로, 인스타그램 계정을 통해 공개된 정보들을 수집하는 다양한 시나리오에 활용할 수 있습니다. 기술 스택은 Python 3 및 관련 라이브러리를 활용하며, 세션ID를 이용한 인증 방식을 요구하는 점이 특징입니다. 최신 릴리즈 및 업데이트는 GitHub 저장소에서 확인 가능하며, 정보 수집 시 세션ID 취득 방법, 사용 시 주의사항 등을 공식 문서 또는 GitHub 페이지 참고하는 것이 좋습니다. 특이사항으로, 공개된 사용자 정보 및 프로필 사진 링크 등을 포함해 수집하는 기능을 제공하며, 인스타그램 세션ID 필요성과 활용법에 대한 안내도 포함되어 있습니다.
devops-exercises
이 저장소는 DevOps와 SRE 관련 기술 주제들에 대한 질문과 연습 문제들을 다루고 있으며, 현재 2624개의 질문과 연습문제가 포함되어 있습니다. 주로 면접 준비용 자료로 활용할 수 있으나, 질문과 연습 내용이 실제 면접을 그대로 반영하는 것은 아니니 참고가 필요합니다. 또한, DevOps 엔지니어 커리어를 위한 기본 개념 습득에 도움을 주고, 기여를 통해 더 많은 연습 문제를 추가할 수 있습니다. 프로젝트는 다양한 기술 주제를 포괄하며, DevOps, Git, 네트워크, 하드웨어, 쿠버네티스, 클라우드 서비스(AWS, Azure, GCP, OpenStack), 운영체제, 가상화, 빅데이터 등 폭넓은 분야의 내용들을 다루고 있습니다. 각 주제별 개념 설명, 실습 예제, 퀴즈, 기술 스택, 최근 업데이트 내역, 참고 링크 및 주의 사항 등을 포함하고 있어 학습과 검증에 유용한 종합 자료입니다. 이 자료는 실무 연습, 학습 준비, 면접 대비 등 다양한 목적으로 활용될 수 있으며, 오픈소스 기여를 통해 확장 가능하도록 설계되어 있습니다.
Motia
Motia는 현대적인 백엔드 프레임워크로, API, 배경 작업, 이벤트, AI 에이전트 등을 하나의 통합된 시스템으로 구성하는 목적으로 개발되었습니다. 이 프로젝트는 여러 runtimes와 프레임워크의 분산 문제를 해결하고, 온전히 JavaScript, TypeScript, Python 등 다양한 언어를 활용하여 이벤트 기반 워크플로우를 만들 수 있게 돕습니다. 구조적으로는 ‘Step’이라는 핵심 원시 개념을 중심으로 API 엔드포인트(api), 이벤트(event), 크론(cron), 노오프(noop) 등 다양한 Step 타입이 존재하며, 이들을 조합하여 복잡한 업무 흐름을 설계할 수 있습니다. 주요 사용 대상은 백엔드 팀과 개발자로, 분산된 서비스와 반복 작업, AI 에이전트 통합 등에 적합합니다. 기술 스택은 Node.js (JavaScript/TypeScript), Python을 기본으로 하며, 향후 Ruby, Go, Rust 지원도 검토되고 있습니다. 프로젝트의 최근 변경 사항으로는 다양한 예제와 통합 도구, Workbench UI 개선, observability와 트레이싱 기능 강화 등이 있으며, 사용자들은 빠른 시작과 친절한 문서, 실시간 모니터링, 디버깅 기능 등을 활용할 수 있습니다. 더불어 Github, Discord, 블로그, 문서, 로드맵 등 풍부한 참고 자료와 커뮤니티 지원이 제공되어 있습니다.
Directus
Directus는 SQL 데이터베이스의 콘텐츠를 실시간으로 관리할 수 있는 API 및 앱 대시보드 플랫폼입니다. 이 프로젝트는 다양한 목적으로 사용될 수 있으며, 특히 비개발자도 직관적으로 데이터를 관리할 수 있는 사용자 친화적인 인터페이스를 제공합니다. 목표는 기존 또는 신규 SQL 데이터베이스 위에 고속의 REST 및 GraphQL API를 즉시 구축하여, 효율적이고 유연한 데이터 관리 솔루션을 제공하는 것입니다.
주요 기능으로는, SQL 데이터베이스와의 무Migration 호환, 다중 데이터베이스 지원(PostgreSQL, MySQL, SQLite, OracleDB, CockroachDB, MariaDB, MS-SQL), 온프레미스 또는 클라우드 환경 실행이 가능합니다. 또한 모듈형 구조로 설계되어 높은 커스터마이징이 가능하고, Vue.js 기반의 현대적 노코드 대시보드에서는 비기술자도 쉽게 사용할 수 있습니다.
구성 요소는 API(REST & GraphQL), 웹 기반 대시보드, 플러그인과 확장 가능한 모듈로 이루어져 있으며, 문서, 커뮤니티 지원(디스코드, 깃허브 이슈, 토론 등), 기여 가이드와 라이선스 정책(비영리 사용은 무료, 대기업은 유료)을 제공합니다. 기술 스택은 Node.js, Vue.js, 다양한 데이터베이스 언어 및 표준 웹 기술 기반입니다. 최근 릴리즈 및 변경 사항에 대한 구체적인 타임라인 정보는 제공되지 않았지만, 오픈소스 커뮤니티와 지속적 기여, 지원, 새로운 기능 도입이 활발히 이루어지고 있습니다. 또한, Directus Cloud 서비스를 통해 빠른 프로젝트 생성과 확장성을 유지하며, 90초 만에 새로운 프로젝트를 시작할 수 있는 기능도 지원됩니다.
특이사항으로, 상업용 라이선스 모델 채택으로 대규모 조직의 사용에 유료화를 도입했고, 이는 지속 가능한 개발과 지원을 위한 정책임. 참고 링크(공식 사이트, 문서, 깃허브, 커뮤니티 채널 등)를 통해 더 자세한 정보를 확인할 수 있으며, 사용 시에는 라이선스 정책을 숙지하는 것이 좋습니다.
Perfetto - System profiling, app tracing and trace analysis
Perfetto는 오픈소스 성능 분석 도구 모음으로, 시스템 및 애플리케이션의 행동을 이해하고 성능 문제의 원인을 찾는 데 도움을 줍니다. 이 프로젝트는 Android 운영체제와 Chromium 브라우저의 기본 트레이싱 시스템으로 사용되는 프로파일링, 트레이싱, 분석 기능을 포함하며, 복잡한 시스템의 성능 문제를 해결하는 목적으로 설계되었습니다. 구성요소로는 고성능 트레이싱 데몬, 사용자 공간 트레이싱 SDK, OS 수준 프로브, 브라우저 기반 UI, 그리고 SQL 기반 분석 라이브러리가 있습니다. 이 도구는 Android 앱 개발자, C/C++ 개발자, Linux 커널 개발자, 크로미엄 개발자, 성능 엔지니어 등 다양한 대상이 사용하며, 성능 디버깅, 시스템 분석, 커스텀 트레이스 생성 및 데이터 시각화 등에 활용됩니다. 주요 기술 스택에는 C++17, 커널 프로브, 웹 기반 UI, SQL 분석 엔진 등이 포함됩니다. 최근 릴리즈 및 업데이트 내역은 공식 GitHub 저장소에서 확인 가능하며, 사용자 안내서와 커뮤니티 지원 채널도 제공되어 있어 사용이 비교적 수월합니다. 프로젝트의 특이사항으로는 크로미엄 및 Android와의 긴밀한 통합, 다양한 분석 포맷 지원, 그리고 강력한 SQL 인터페이스를 통한 자동화 분석 기능이 있습니다.
build-your-own-x
이 프로젝트는 좋아하는 기술을 처음부터 재구현하는 단계별 가이드를 제공하는 자료 모음입니다. 목적은 다양한 기술 분야에 대한 이해를 깊게 하고, 직접 코드를 작성하며 학습하는 데 도움을 주는 것으로, 3D 렌더러, 증강 현실, BitTorrent 클라이언트, 블록체인, 봇, 명령줄 도구, 데이터베이스, 도커, 가상 머신, 프론트엔드 프레임워크, 게임, Git, 네트워크 스택, 신경망, 운영체제, 물리 엔진, 프로그래밍 언어, 정규식 엔진, 검색 엔진, 셸, 템플릿 엔진, 텍스트 에디터, 영상 인식 시스템, 복셀 엔진, 웹 브라우저, 웹 서버 등 다양한 주제를 다루고 있습니다.
각각의 항목은 해당 기술을 처음부터 만들어보는 과정을 단계별로 안내하는 튜토리얼 및 실습 예제 형식을 띄고 있으며, C, C++, Python, JavaScript, Rust 등 여러 기술 스택과 프로그래밍 언어를 활용한 구현 예제를 포함하고 있습니다. 최근 변경 사항은 다양한 분야별 튜토리얼들이 지속적으로 보완되고 추가되고 있으며, 특히 ‘Build your own’ 제목 아래 실습 거리 자료들이 활성화되어 있습니다. 기여 방법도 상세히 안내하며, 오픈소스 기여를 환영하는 분위기입니다. 이 문서는 저작권이 각 기여자에게 있으며, Creative Commons CC0 라이선스로 공개되어 있어 누구나 자유롭게 활용 가능하며, 시작자는 물론, 고급 개발자도 참고하여 기술 역량을 확장할 수 있는 자료입니다.