BigQuery client wrapper with clean API

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

BiggerQuery — Python library for BigQuery

BiggerQuery is a Python library which simplifies working with BigQuery datasets. It wraps BigQuery client, providing elegant API for most common use cases.

Installation

pip install biggerquery

Compatibility

BiggerQuery is compatible with Python 2.7.

Tutorial

Task definition

To guide you through all features that BiggerQuery provides, we prepared a simple task. There is a table transactions, which looks like this:

user_id	transaction_value	partition_timestamp
john123	800	2019-01-01 00:00:00
smith99	10000	2019-01-01 00:00:00
smith99	30000	2019-01-01 00:00:00

Table contains all transactions that users make in a specific day. Your task is to calculate two metrics for each user: daily user transaction value and daily user transaction count.

Final result should be table user_transaction_metrics:

user_id	metric_value	metric_type	partition_timestamp
john123	800	USER_TRANSACTION_VALUE	2019-01-01 00:00:00
smith99	40000	USER_TRANSACTION_VALUE	2019-01-01 00:00:00
john123	1	USER_TRANSACTION_COUNT	2019-01-01 00:00:00
smith99	2	USER_TRANSACTION_COUNT	2019-01-01 00:00:00

Setting up test environment

Before you start working with BiggerQuery, you need to install Google Cloud SDK.

With gcloud installed, set up default gcloud credentials:

gcloud auth application-default login

Next, set up virtualenv with BiggerQuery:

mkdir test_biggerquery
cd test_biggerquery
pip install virtualenv
virtualenv -p /usr/bin/python2.7 venv
source venv/bin/activate
pip install biggerquery

Then, prepare datasets. Start by creating a new Python module:

touch user_transaction_metrics.py

Edit created module with your favourite editor and add following lines:

from biggerquery import create_dataset_manager

PROJECT_ID = 'your-project-id'
USER_TRANSACTION_METRICS_DATASET_NAME = 'user_transaction_metrics'
TRANSACTION_DATASET_NAME = 'transactions'


def setup_test_transactions_table(project_id, dataset_name):
    dataset_id, dataset_manager = create_dataset_manager(
        project_id,
        '2019-01-01',
        dataset_name,
        internal_tables=['transactions'])

    dataset_manager.create_table("""
        CREATE TABLE IF NOT EXISTS transactions (
            user_id STRING,
            transaction_value FLOAT64,
            partition_timestamp TIMESTAMP)
        PARTITION BY DATE(partition_timestamp)""")

    dataset_manager.write_truncate('transactions', """
        SELECT 'john123' as user_id, 800.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
        """)
    dataset_manager.write_append('transactions', """
        SELECT 'smith99' as user_id, 10000.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
        """)
    dataset_manager.write_append('transactions', """
        SELECT 'smith99' as user_id, 30000.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
        """)

    return '{dataset_id}.transactions'.format(dataset_id=dataset_id)


TRANSACTIONS_TABLE_ID = setup_test_transactions_table(PROJECT_ID, TRANSACTION_DATASET_NAME)

user_transaction_dataset_id, user_transaction_metrics_dataset_manager = create_dataset_manager(
    project_id=PROJECT_ID,
    runtime='2019-01-01',
    dataset_name=USER_TRANSACTION_METRICS_DATASET_NAME,
    internal_tables=['user_transaction_metrics'],
    external_tables={
        'transactions': TRANSACTIONS_TABLE_ID
    })

This code creates 2 datasets:

transactions dataset which contains a source data table to be processed,
user_transaction_metrics dataset which contains result tables of our processing.

Creating dataset manager

Dataset manager is an object that allows you to manipulate tables present in a given dataset, using basic operations: write_truncate, write_append, create_table, collect, write_tmp. Let's go through a few examples to illustrate each of those operations.

Start with creating dataset manager object. Parameters project_id and dataset_name defines dataset you want to work with. Parameter internal_tables specifies tables that are inside dataset specified by project_id and dataset_name. Parameter external_tables specifies tables that are outside dataset specified by project_id and dataset_name. External tables have to be described by full table id, for example:

external_tables = {
    'transactions': 'dataset.id.transactions',
    'some_external_table': 'dataset.id2.external_table'
}

Parameter runtime is used to determine partition being processed.

user_transaction_dataset_id, user_transaction_metrics_dataset_manager = create_dataset_manager(
    project_id=PROJECT_ID,
    runtime='2019-01-01',
    dataset_name=USER_TRANSACTION_METRICS_DATASET_NAME,
    internal_tables=['user_transaction_metrics'],
    external_tables={
        'transactions': TRANSACTIONS_TABLE_ID
    })

Create table

Now, create a table that you can use to store your metrics. You can use plain SQL to create this table. Add following lines to user_transaction_metrics.py:

user_transaction_metrics_dataset_manager.create_table("""
CREATE TABLE IF NOT EXISTS user_transaction_metrics (
    user_id STRING,
    metric_value FLOAT64,
    metric_type STRING,
    partition_timestamp TIMESTAMP)
PARTITION BY DATE(partition_timestamp)
""")

Write truncate

Next, calculate the first metric — USER_TRANSACTION_VALUE. Add the following lines:

user_transaction_metrics_dataset_manager.write_truncate('user_transaction_metrics', """
SELECT user_id,
    sum(transaction_value) as metric_value,
    'USER_TRANSACTION_VALUE' as metric_type,
    TIMESTAMP('{dt}') as partition_timestamp
FROM `{transactions}`
WHERE DATE(partition_timestamp) = '{dt}'
GROUP BY user_id
""")

Result:

user_id	metric_value	metric_type	partition_timestamp
john123	800	USER_TRANSACTION_VALUE	2019-01-01 00:00:00
smith99	40000	USER_TRANSACTION_VALUE	2019-01-01 00:00:00

The write_truncate function writes result of provided query to a specified table, in this case user_transaction_metrics. This function removes all data from a given table before writing new data.

Inside query, you don't have to write full table ids. You can use names provided in parameters internal_tables and external_tables. Parameter runtime is also available inside queries as {dt}.

Write append

So what about adding data to a table? Calculate another metric — USER_TRANSACTION_COUNT. Add the following lines:

user_transaction_metrics_dataset_manager.write_append('user_transaction_metrics', """
SELECT user_id,
   count(transaction_value) * 1.0 as metric_value,
   'USER_TRANSACTION_COUNT' as metric_type,
   TIMESTAMP('{dt}') as partition_timestamp
FROM `{transactions}`
WHERE DATE(partition_timestamp) = '{dt}'
GROUP BY user_id
""")

Result:

user_id	metric_value	metric_type	partition_timestamp
john123	800	USER_TRANSACTION_VALUE	2019-01-01 00:00:00
smith99	40000	USER_TRANSACTION_VALUE	2019-01-01 00:00:00
john123	1	USER_TRANSACTION_COUNT	2019-01-01 00:00:00
smith99	2	USER_TRANSACTION_COUNT	2019-01-01 00:00:00

The difference between write_truncate and write_append is that write append does not remove data from a given table before writing new data.

Write temporary

Sometimes it's useful to create additional table that stores some intermediate results. The write_tmp function allows creating tables from query results (write_truncate and write_append can write only to tables that already exists).

You can refactor existing code using write_tmp function:

from biggerquery import create_dataset_manager

PROJECT_ID = 'your-project-id'
USER_TRANSACTION_METRICS_DATASET_NAME = 'user_transaction_metrics'
TRANSACTION_DATASET_NAME = 'transactions'


def setup_test_transactions_table(project_id, dataset_name):
   dataset_id, dataset_manager = create_dataset_manager(
       project_id,
       '2019-01-01',
       dataset_name,
       internal_tables=['transactions'])

   dataset_manager.create_table("""
       CREATE TABLE IF NOT EXISTS transactions (
           user_id STRING,
           transaction_value FLOAT64,
           partition_timestamp TIMESTAMP)
       PARTITION BY DATE(partition_timestamp)""")

   dataset_manager.write_truncate('transactions', """
       SELECT 'john123' as user_id, 800.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
       """)
   dataset_manager.write_append('transactions', """
       SELECT 'smith99' as user_id, 10000.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
       """)
   dataset_manager.write_append('transactions', """
       SELECT 'smith99' as user_id, 30000.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
       """)

   return '{dataset_id}.transactions'.format(dataset_id=dataset_id)


# creating source dataset and table- transactions
TRANSACTIONS_TABLE_ID = setup_test_transactions_table(PROJECT_ID, TRANSACTION_DATASET_NAME)

# creating processing dataset- user_transaction_metrics
user_transaction_dataset_id, user_transaction_metrics_dataset_manager = create_dataset_manager(
   project_id=PROJECT_ID,
   runtime='2019-01-01',
   dataset_name=USER_TRANSACTION_METRICS_DATASET_NAME,
   internal_tables=['user_transaction_metrics'],
   external_tables={
       'transactions': TRANSACTIONS_TABLE_ID
   })


def calculate_user_transaction_metrics(dataset_manager):
   dataset_manager.create_table("""
   CREATE TABLE IF NOT EXISTS user_transaction_metrics (
       user_id STRING,
       metric_value FLOAT64,
       metric_type STRING,
       partition_timestamp TIMESTAMP)
   PARTITION BY DATE(partition_timestamp)
   """)

   dataset_manager.write_tmp('daily_user_transaction_value', """
   SELECT user_id,
       sum(transaction_value) as metric_value,
       'USER_TRANSACTION_VALUE' as metric_type,
       TIMESTAMP('{dt}') as partition_timestamp
   FROM `{transactions}`
   WHERE DATE(partition_timestamp) = '{dt}'
   GROUP BY user_id
   """)

   dataset_manager.write_tmp('daily_user_transaction_count', """
   SELECT user_id,
       count(transaction_value) as metric_value,
       'USER_TRANSACTION_COUNT' as metric_type,
       TIMESTAMP('{dt}') as partition_timestamp
   FROM `{transactions}`
   WHERE DATE(partition_timestamp) = '{dt}'
   GROUP BY user_id
   """)

   dataset_manager.write_truncate('user_transaction_metrics', """
   SELECT * FROM `{daily_user_transaction_value}`
   UNION ALL
   SELECT * FROM `{daily_user_transaction_count}`
   """)


calculate_user_transaction_metrics(user_transaction_metrics_dataset_manager)

It's the good practice to put series of related queries into a single function that you can schedule, test or run with specified dataset manager. In this case it's user_transaction_metrics function. Temporary tables are useful for debugging your code by checking the results step by step. Splitting a big query into smaller chunks also makes it easier to read.

Collect

You can use collect to fetch data into memory from BigQuery. For example, to send data to remote server via HTTP:

calculate_user_transaction_metrics(user_transaction_metrics_dataset_manager)

rows = user_transaction_metrics_dataset_manager.collect("""
SELECT * FROM `{user_transaction_metrics}`
WHERE DATE(partition_timestamp) = '{dt}'
""")

import requests
for row in rows:
    requests.post('http://example.com/user-metrics', json={'userMetric': row})

Credentials

If you want to specify credentials to operate on your dataset, you can do it when creating the dataset manager, for example:

from google.oauth2 import service_account

user_transaction_dataset_id, user_transaction_metrics_dataset_manager = create_dataset_manager(
    ...
    credentials=service_account.Credentials.from_service_account_info({
                "type": "service_account",
                "project_id": "you-amazing-project",
                "private_key_id": "zcvxcgadf",
                "client_email": "blabla",
                "client_id": "mehmeh",
                "auth_uri": "asdfasdfasdf",
                "token_uri": "asdfasdfasdf",
                "auth_provider_x509_cert_url": "zvadfsgadfgdafg",
            })
    ...
)

Testing

Unfortunately, there is no way to run BigQuery locally for testing. But you can still write automated E2E tests for your queries as shown below. Remember to set test project id before running the test.

from datetime import date
from unittest import TestCase
from unittest import main
from biggerquery import create_dataset_manager


# component to test
def calculate_user_transaction_metrics(dataset_manager):
    dataset_manager.create_table("""
    CREATE TABLE IF NOT EXISTS user_transaction_metrics (
        user_id STRING,
        metric_value FLOAT64,
        metric_type STRING,
        partition_timestamp TIMESTAMP)
    PARTITION BY DATE(partition_timestamp)
    """)

    dataset_manager.write_tmp('daily_user_transaction_value', """
    SELECT user_id,
        sum(transaction_value) as metric_value,
        'USER_TRANSACTION_VALUE' as metric_type,
        TIMESTAMP('{dt}') as partition_timestamp
    FROM `{transactions}`
    WHERE DATE(partition_timestamp) = '{dt}'
    GROUP BY user_id
    """)

    dataset_manager.write_tmp('daily_user_transaction_count', """
    SELECT user_id,
        count(transaction_value) as metric_value,
        'USER_TRANSACTION_COUNT' as metric_type,
        TIMESTAMP('{dt}') as partition_timestamp
    FROM `{transactions}`
    WHERE DATE(partition_timestamp) = '{dt}'
    GROUP BY user_id
    """)

    dataset_manager.write_truncate('user_transaction_metrics', """
    SELECT * FROM `{daily_user_transaction_value}`
    UNION ALL
    SELECT * FROM `{daily_user_transaction_count}`
    """)


class CalculateUserTransactionMetricsTestCase(TestCase):
    TEST_PARTITION = '2019-01-01'
    TEST_PROJECT = 'your-project-id'

    def test_should_calculate_user_transaction_metrics(self):

        # when
        calculate_user_transaction_metrics(self.dataset_manager)
        calculated_user_transaction_metrics = self.dataset_manager.collect("""
        SELECT user_id,
        metric_value,
        metric_type,
        DATE(partition_timestamp) as partition_timestamp
        FROM `{user_transaction_metrics}`
        WHERE DATE(partition_timestamp) = '{dt}'
        """)

        # then
        self.assertSetEqual(
            {(row['user_id'], row['metric_value'], row['metric_type'], row['partition_timestamp'])
             for row in calculated_user_transaction_metrics},
            {
                ('john123', 800.0, 'USER_TRANSACTION_VALUE', date(2019, 1, 1)),
                ('smith99', 40000.0, 'USER_TRANSACTION_VALUE', date(2019, 1, 1)),
                ('john123', 1.0, 'USER_TRANSACTION_COUNT', date(2019, 1, 1)),
                ('smith99', 2.0, 'USER_TRANSACTION_COUNT', date(2019, 1, 1)),
            })

    def setUp(self):
        transactions_table_id = self.setup_test_transactions_table()
        self.test_dataset_id, self.dataset_manager = create_dataset_manager(
            self.TEST_PROJECT,
            self.TEST_PARTITION,
            internal_tables=['user_transaction_metrics'],
            external_tables={
                'transactions': transactions_table_id
            })

    def setup_test_transactions_table(self):
        dataset_id, dataset_manager = create_dataset_manager(
            self.TEST_PROJECT,
            self.TEST_PARTITION,
            internal_tables=['transactions']
        )
        dataset_manager.create_table("""
        CREATE TABLE IF NOT EXISTS transactions (
            user_id STRING,
            transaction_value FLOAT64,
            partition_timestamp TIMESTAMP)
        PARTITION BY DATE(partition_timestamp)""")
        dataset_manager.write_truncate('transactions', """
        SELECT 'john123' as user_id, 800.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
        """)
        dataset_manager.write_append('transactions', """
        SELECT 'smith99' as user_id, 10000.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
        """)
        dataset_manager.write_append('transactions', """
        SELECT 'smith99' as user_id, 30000.0 as transaction_value, TIMESTAMP('2019-01-01') as partition_timestamp
        """)
        return '{dataset_id}.transactions'.format(dataset_id=dataset_id)

    def tearDown(self):
        self.dataset_manager.remove_dataset()


if __name__ == '__main__':
    main()

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

1.0.dev12 pre-release

Aug 10, 2020

1.0.dev11 pre-release

Aug 10, 2020

1.0.dev10 pre-release

Aug 10, 2020

1.0.dev8 pre-release

Jul 24, 2020

1.0.dev7 pre-release

Jul 24, 2020

1.0.dev6 pre-release

Jun 24, 2020

1.0.dev5 pre-release

May 29, 2020

1.0.dev4 pre-release

May 29, 2020

1.0.dev3 pre-release

May 29, 2020

1.0.dev2 pre-release

May 29, 2020

1.0.dev1 pre-release

May 29, 2020

0.6.0

Mar 2, 2020

0.6.dev34 pre-release

Mar 2, 2020

0.6.dev33 pre-release

Mar 2, 2020

0.6.dev32 pre-release

Feb 27, 2020

0.6.dev31 pre-release

Feb 27, 2020

0.6.dev30 pre-release

Feb 27, 2020

0.6.dev29 pre-release

Feb 27, 2020

0.6.dev28 pre-release

Feb 27, 2020

0.6.dev27 pre-release

Feb 27, 2020

0.6.dev26 pre-release

Feb 27, 2020

0.6.dev25 pre-release

Feb 27, 2020

0.6.dev24 pre-release

Feb 27, 2020

0.6.dev23 pre-release

Feb 27, 2020

0.6.dev22 pre-release

Feb 25, 2020

0.6.dev21 pre-release

Feb 25, 2020

0.6.dev20 pre-release

Feb 25, 2020

0.6.dev19 pre-release

Feb 25, 2020

0.6.dev18 pre-release

Feb 24, 2020

0.6.dev17 pre-release

Feb 24, 2020

0.6.dev16 pre-release

Feb 24, 2020

0.6.dev15 pre-release

Feb 24, 2020

0.6.dev14 pre-release

Feb 24, 2020

0.6.dev13 pre-release

Feb 2, 2020

0.6.dev12 pre-release

Feb 2, 2020

0.6.dev11 pre-release

Feb 2, 2020

0.6.dev10 pre-release

Jan 13, 2020

0.6.dev9 pre-release

Jan 6, 2020

0.6.dev8 pre-release

Dec 25, 2019

0.6.dev7 pre-release

Dec 25, 2019

0.6.dev6 pre-release

Dec 3, 2019

0.6.dev5 pre-release

Nov 25, 2019

0.6.dev4 pre-release

Nov 22, 2019

0.6.dev3 pre-release

Nov 20, 2019

0.6.dev2 pre-release

Nov 19, 2019

0.6.dev1 pre-release

Nov 19, 2019

0.5.0

Nov 10, 2019

0.5rc2 pre-release

Nov 9, 2019

0.5rc1 pre-release

Nov 8, 2019

0.5.dev13 pre-release

Oct 30, 2019

0.5.dev12 pre-release

Oct 25, 2019

0.5.dev11 pre-release

Oct 25, 2019

0.5.dev10 pre-release

Oct 24, 2019

0.5.dev9 pre-release

Oct 24, 2019

0.5.dev8 pre-release

Oct 24, 2019

0.5.dev7 pre-release

Oct 24, 2019

0.5.dev6 pre-release

Oct 23, 2019

0.5.dev5 pre-release

Oct 23, 2019

0.5.dev4 pre-release

Oct 23, 2019

0.5.dev2 pre-release

Oct 23, 2019

0.5.dev1 pre-release

Oct 23, 2019

0.4.0

Oct 16, 2019

0.4.0.dev6 pre-release

Oct 11, 2019

0.4.0.dev4 pre-release

Oct 11, 2019

0.4.0.dev2 pre-release

Oct 11, 2019

0.4.0.dev1 pre-release

Oct 11, 2019

0.3.0

Oct 7, 2019

0.3.dev23 pre-release

Oct 6, 2019

0.3.dev22 pre-release

Oct 2, 2019

0.3.dev21 pre-release

Oct 2, 2019

0.3.dev20 pre-release

Oct 2, 2019

0.3.dev19 pre-release

Sep 26, 2019

0.3.dev18 pre-release

Sep 26, 2019

0.3.dev17 pre-release

Sep 19, 2019

0.3.dev16 pre-release

Sep 19, 2019

0.3.dev15 pre-release

Sep 19, 2019

0.3.dev14 pre-release

Sep 18, 2019

0.3.dev13 pre-release

Sep 18, 2019

0.3.dev11 pre-release

Sep 17, 2019

0.3.dev10 pre-release

Sep 17, 2019

0.3.dev9 pre-release

Sep 16, 2019

0.3.dev8 pre-release

Sep 16, 2019

0.3.dev7 pre-release

Sep 14, 2019

0.3.dev6 pre-release

Sep 12, 2019

0.3.dev5 pre-release

Sep 12, 2019

0.3.dev4 pre-release

Sep 11, 2019

0.3.dev3 pre-release

Sep 11, 2019

0.3.dev2 pre-release

Sep 11, 2019

0.3.dev1 pre-release

Sep 11, 2019

0.2.2

Aug 30, 2019

0.2.1

Aug 30, 2019

0.2.0

Aug 30, 2019

This version

0.2.0rc1 pre-release

Aug 26, 2019

0.1.0

Aug 6, 2019

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

biggerquery-0.2.0rc1.tar.gz (18.2 kB view hashes)

Uploaded Aug 26, 2019 Source

Built Distribution

biggerquery-0.2.0rc1-py2-none-any.whl (14.6 kB view hashes)

Uploaded Aug 26, 2019 Python 2

Hashes for biggerquery-0.2.0rc1.tar.gz

Hashes for biggerquery-0.2.0rc1.tar.gz
Algorithm	Hash digest
SHA256	`4d93e954f902653ab90c2cbfe75424267b05c5ae5baffb4cafd9bc9942965068`
MD5	`189aaca58d0eb0865b6abe4dcaee53f9`
BLAKE2b-256	`f338b8dfd1fe05a5fbde27cc37ebbaba9c237b7734b9bcdafedfc430a9090801`

Hashes for biggerquery-0.2.0rc1-py2-none-any.whl

Hashes for biggerquery-0.2.0rc1-py2-none-any.whl
Algorithm	Hash digest
SHA256	`0b9996668d78fe27cd47f6f045250df4509ed56c5269a6b247a88fbdfcf93a28`
MD5	`847cf4e5fb6e0b711fba6a436d48ce13`
BLAKE2b-256	`3263188d46a32da72ef12ea44a0fb89422ba65da10d7ae23464b8d2675b85cb9`