세상에 Data는 많다지만, 나의 Module에 Exactly fit한 data set은 없다.
물론, 시중 NL2SQL Benchmark pair data를 이용할 순 있지만, 그걸로만 Model Fine-tuning을 진행하기엔 한계가 있다.
그렇다고 그냥 구글링해서 쓰자니 또 정확도가 떨어지는 Data가 섞여 Fine-tuning이 잘 진행되지 않을 가능성이 농후하다.
그리하여.. 유명한 Database 책에 있는 SQL, Natural explanation을 일일히 따와서 Fine - Tuning 작업을 진행해보려고 한다.
옛날 책같은 경우엔 LLM도 pdf 파일 내의 text를 잘 검출하지 못하여 일일히 노가다를 뛰어보도록 했다.
너무 많은 책을 다루기엔 빡세니까 유명한 책 2가지를 타켓팅해보기로..
Database System Concepts - 7th edition
www.db-book.com
2.

위 책들 PDF의 경우 구글링하면 다~ 구할 수 있으니 여기에다가도 올린다.

이런 식으로 책에 나오는 SQL들을 하나하나 Excel file에 정리해본다.
모든 Chapter를 다 뒤져보기엔 비효율적이라 Chapter 초반에 나오는 SQL 단원의 내용들만 다뤄보기로 했다.
근데, 이게 두 책의 SQL을 다 긁어모아본 지금 대충 200개 정도의 Pair를 얻었다. 이게 충분한지는 잘 모르겠다.
Model Fine-tuniung을 위해선 당연히 훨씬 더 많은 양의 Data가 필요할 것이다.
이제는 이렇게 모아놓은 Data를 잘 정리해서 해당 Data를 좀 뻥튀기?(A.K.A Data Augmentation)을 진행하여 Fine tuning하는 기법을 좀 찾아보거나, 공부해봐야겠다.

'Data Science > Research' 카테고리의 다른 글
SQL2NL Prompt Engineering - KCC(1) (0) | 2025.04.04 |
---|---|
PostgreSQL, LLM 연결(5) (0) | 2025.04.01 |
PostgreSQL, LLM 연결(4) (0) | 2025.03.26 |
PostgreSQL, LLM 연결(3) (0) | 2025.03.25 |
PostgreSQL, LLM 연결(2) (0) | 2025.03.25 |