📌 DCSS AI 개발일지 #1
텍스트 기반 구조로 전환
오늘은 프로젝트 구조를 다시 정리했다.
처음 구조는 스크린샷 기반이었다.
-
화면 캡처
-
HP 픽셀 감지
-
이벤트 발생 시 LLM 호출
-
pydirectinput으로 입력
기술적으로는 동작했지만, 안정성이 낮았다.
문제점
-
HP 색상 오탐 발생
-
메뉴 / 오버레이 감지 불안정
-
--more--처리 구조 취약 -
화면 인식은 본질적으로 노이즈가 많음
수익형 방송 구조를 목표로 한다면
이 방식은 장기적으로 유지하기 어렵다고 판단했다.
WebTiles + 로그 파싱 시도
안정성을 확보하기 위해 텍스트 기반 구조를 검토했다.
목표:
-
AI는 텍스트 상태를 읽고 판단
-
시청자는 타일 화면을 본다
그러나 윈도우 설치형 DCSS는
실시간 로그 파일을 기본적으로 제공하지 않았다.
dump_on_save 방식은 저장 시 메인 메뉴로 나가기 때문에
실시간 판단 구조에 부적합했다.
구조 재정의
설치 폴더를 재검토하던 중
crawl-console 실행 파일을 확인했다.
여기서 구조가 단순해졌다.
새로운 구조
crawl-console → AI 상태 읽기
crawl-tiles → 방송 송출 화면
AI는 콘솔 텍스트를 직접 읽는다.
OCR 불필요.
로그 파일 불필요.
WebTiles 불필요.
기술적 의의
윈도우 콘솔은 내부적으로 텍스트 버퍼를 유지한다.
즉, 콘솔 화면은 순수 문자열 데이터다.
이것은 다음을 의미한다:
-
HP / MP / 상태이상 직접 파싱 가능
-
적 등장 메시지 감지 가능
-
위험 이벤트 정밀 감지 가능
-
이벤트 기반 LLM 호출 정확도 상승
기존 스크린샷 방식 대비 안정성이 크게 향상될 것으로 예상된다.
현재 기술 상태
-
Python 3.11 환경 구성 완료
-
OpenAI API 연결 성공
-
pydirectinput 입력 자동화 성공
-
기본 자동 루프 구성
-
콘솔 버전 실행 확인
다음 작업 계획
-
콘솔 버퍼 실시간 읽기 구현
-
HP / 적 감지 파서 구현
-
위험 점수 시스템 설계
-
이벤트 기반 LLM 호출 구조 정리
오늘의 결론
AI를 똑똑하게 만드는 것보다
AI를 안정적으로 만드는 것이 우선이다.
화면 기반에서 텍스트 기반으로 전환한 것은
구조적으로 큰 전진이다.
댓글 없음:
댓글 쓰기