Eat Study Love

먹고 공부하고 사랑하라

Data Science/Research

SQL2NL 용 Data set 만들기

eatplaylove 2025. 3. 31. 15:11

세상에 Data는 많다지만, 나의 Module에 Exactly fit한 data set은 없다.

 

물론, 시중 NL2SQL Benchmark pair data를 이용할 순 있지만, 그걸로만 Model Fine-tuning을 진행하기엔 한계가 있다.

 

그렇다고 그냥 구글링해서 쓰자니 또 정확도가 떨어지는 Data가 섞여 Fine-tuning이 잘 진행되지 않을 가능성이 농후하다.

 

그리하여.. 유명한 Database 책에 있는 SQL, Natural explanation을 일일히 따와서 Fine - Tuning 작업을 진행해보려고 한다.

 

옛날 책같은 경우엔 LLM도 pdf 파일 내의 text를 잘 검출하지 못하여 일일히 노가다를 뛰어보도록 했다.

 

너무 많은 책을 다루기엔 빡세니까 유명한 책 2가지를 타켓팅해보기로..

 

1. https://www.db-book.com/

 

Database System Concepts - 7th edition

 

www.db-book.com

2. 

Ramakrishnan - Database Management Systems 3rd Edition.pdf
19.21MB

 

위 책들 PDF의 경우 구글링하면 다~ 구할 수 있으니 여기에다가도 올린다.

 

 

이런 식으로 책에 나오는 SQL들을 하나하나 Excel file에 정리해본다.

 

모든 Chapter를 다 뒤져보기엔 비효율적이라 Chapter 초반에 나오는 SQL 단원의 내용들만 다뤄보기로 했다.

 

근데, 이게 두 책의 SQL을 다 긁어모아본 지금 대충 200개 정도의 Pair를 얻었다. 이게 충분한지는 잘 모르겠다.

 

Model Fine-tuniung을 위해선 당연히 훨씬 더 많은 양의 Data가 필요할 것이다.

 

이제는 이렇게 모아놓은 Data를 잘 정리해서 해당 Data를 좀 뻥튀기?(A.K.A Data Augmentation)을 진행하여 Fine tuning하는 기법을 좀 찾아보거나, 공부해봐야겠다.

 

'Data Science > Research' 카테고리의 다른 글

SQL2NL Prompt Engineering - KCC(1)  (0) 2025.04.04
PostgreSQL, LLM 연결(5)  (0) 2025.04.01
PostgreSQL, LLM 연결(4)  (0) 2025.03.26
PostgreSQL, LLM 연결(3)  (0) 2025.03.25
PostgreSQL, LLM 연결(2)  (0) 2025.03.25