Я пытаюсь прочитать все вопросы и ответы, связанные с AAD, из Stack Exchange API /2.2/search/advanced/pagesize=100&fromdate=2019-07-01&todate=2020-10-19&site=stackoverflow&filter=!BLIw93LDFyFBUjlepdSTkMo7r6Pkpx&q=listOfTags
путем передачи набора тегов, поскольку мы пытаемся получить данные за 1 июля 2019 года.
Наш конвейер ADF продолжает замедляться, и даже если мы установим время ожидания на 1 минуту, а наш ETL будет очень медленным, он будет работать вечно.
Текущий подход (очень медленный)
Я использую ADF, чтобы вытащить все вопросы (повторяя страницу за страницей, используя до активности), которые соответствуют тегам и загружают данные в SQL
Передайте идентификатор вопроса в этот API https://api.stackexchange.com/docs/answers-on-questions#order=desc&sort=activity&ids=29433422&filter=!0U7YRMKgNJq(Exonzn(PdiZE5&site=stackoverflow&run=true), чтобы получить все ответы на соответствующий вопрос, а затем загрузить результат в SQL.
Вопросы:
Есть ли прямой бэкенд (Kusto, SQL, Cosmos и т. д.), с помощью которого мы можем получить данные, а не вызывать API для получения вопросов и ответов? Если да, то как мы можем получить доступ к серверной части?
Каков эффективный подход к извлечению исторических данных без регулирования из Stack Overflow?