SQL2NL 용 Data set 만들기

Data Science/Research

eatplaylove 2025. 3. 31. 15:11

세상에 Data는 많다지만, 나의 Module에 Exactly fit한 data set은 없다.

물론, 시중 NL2SQL Benchmark pair data를 이용할 순 있지만, 그걸로만 Model Fine-tuning을 진행하기엔 한계가 있다.

그렇다고 그냥 구글링해서 쓰자니 또 정확도가 떨어지는 Data가 섞여 Fine-tuning이 잘 진행되지 않을 가능성이 농후하다.

그리하여.. 유명한 Database 책에 있는 SQL, Natural explanation을 일일히 따와서 Fine - Tuning 작업을 진행해보려고 한다.

옛날 책같은 경우엔 LLM도 pdf 파일 내의 text를 잘 검출하지 못하여 일일히 노가다를 뛰어보도록 했다.

너무 많은 책을 다루기엔 빡세니까 유명한 책 2가지를 타켓팅해보기로..

Database System Concepts - 7th edition

www.db-book.com

위 책들 PDF의 경우 구글링하면 다~ 구할 수 있으니 여기에다가도 올린다.

이런 식으로 책에 나오는 SQL들을 하나하나 Excel file에 정리해본다.

모든 Chapter를 다 뒤져보기엔 비효율적이라 Chapter 초반에 나오는 SQL 단원의 내용들만 다뤄보기로 했다.

근데, 이게 두 책의 SQL을 다 긁어모아본 지금 대충 200개 정도의 Pair를 얻었다. 이게 충분한지는 잘 모르겠다.

Model Fine-tuniung을 위해선 당연히 훨씬 더 많은 양의 Data가 필요할 것이다.

이제는 이렇게 모아놓은 Data를 잘 정리해서 해당 Data를 좀 뻥튀기?(A.K.A Data Augmentation)을 진행하여 Fine tuning하는 기법을 좀 찾아보거나, 공부해봐야겠다.

SQL2NL Prompt Engineering - KCC(1) (0)	2025.04.04
PostgreSQL, LLM 연결(5) (0)	2025.04.01
PostgreSQL, LLM 연결(4) (0)	2025.03.26
PostgreSQL, LLM 연결(3) (0)	2025.03.25
PostgreSQL, LLM 연결(2) (0)	2025.03.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

꿈꾸는공학도